Una perspectiva documental y bibliotecológica sobre el big data y el periodismo de datos

La diferencia entre Google y la CDC es que la primera “puede observar la intensidad de búsquedas relacionadas con la gripe A en cualquier parte, en tiempo real y con un nivel de precisión tan fino como sea necesario” (p. 27); mientras la segunda solo ve datos semanales y por región, con cierta demora que está lejos de ser a tiempo real. Otro aspecto importante para tener en cuenta es que estos datos corresponden a una muestra de sujetos u objetos de estudios que no han sido seleccionados aleatoriamente, por lo cual es susceptible que tengan sesgos de selección39. En primer término, es importante tener en cuenta que el registro médico surge de la práctica clínica, por tanto, el dato que se registra corresponde a un https://www.adiario.mx/tecnologia/el-bootcamp-de-tripleten-unico-por-su-metodo-de-ensenanza-y-plan-de-carrera/ conjun to de acciones realizadas por profesionales de salud, en pos de atender o dar respuesta a una necesidad de salud de quien la requiera. En consecuencia, los datos que se generan no necesariamente son con fines de investi gación científica, por lo cual pueden contener errores, estar incompletos o pueden haberse registrado bajo di ferentes reglas de clasificación o unidades de medida, entre otros. Por lo cual, un desafío importante cuando se emprende el análisis de estos datos es la limpieza y validación de éstos20. La mínima cantidad de información que puede ser procesada por un aparato tecnológico es el bit, el cual sólo puede ser expresado en ceros o unos, mientras que un byte es un conjunto de 8 bits.

  • No es tema menor que las mediciones cuantitativas no partan de un dato estadístico neutral, pues la tecnología hace posible y calculable la medición de poblaciones para los individuos, es decir que el conocimiento generado a través del big data es parcial, y refleja la geografía y contexto social de las personas que producen dicho conocimiento.
  • La IA y el radiodiagnóstico están jugando un papel importante en la detección del COVID-19 con un porcentaje superior al 90%, lo que puede incrementarse cuando se entrena el sistema con mayor cantidad de datos, por lo que el Big Data en conjunto con otras disciplinas analíticas son un factor clave para llevar a feliz término un estudio.
  • Los primeros trabajan aprendizaje inductivo de descripciones simbólicas, mientras que los segundos se centran en los métodos de reconocimiento de patrones o en la estadística.
  • En cáncer infantil, y al alero del proyecto Pancancer, se han analizado 961 tumores de niños, ado lescentes y adultos jóvenes que comprenden 24 tipos moleculares distintos de cáncer.

Es importante mencionar que la República de Corea proporciona acceso a información anónima de pacientes con COVID-19, incluyendo el historial médico de cinco años de cada paciente, con el fin de que al realizar un estudio de trazabilidad mediante aprendizaje profundo se cuente con una alta cantidad de información útil a estos propósitos. Para proteger la privacidad del paciente, quienes ejecutan el código son un grupo especializado, y luego una vez procesado devuelven los resultados a los investigadores. Este estudio es de especial interés porque permite realizar monitoreos epidemiológicos, caracterizando aquella población que se enferma, pero no ingresa a un hospital, o de aquellos que nunca muestran síntomas. Así, con la investigación empleando IA, se logra obtener información predictiva que ayuda a las autoridades sanitarias a tomar cartas sobre el asunto. Por ejemplo, mediante un modelo de ramificación para estimar cuántas personas han sido infectadas, se analiza ADN viral extraído de cada paciente conocido, luego, el modelo utiliza la tasa de mutación para interpolar a cuántas otras personas pasaron el virus en el camino (Li & Ayscue, 2020).

Diferencias clave entre Big Data y Data Science

A través de un análisis exploratorio y descriptivo se elaboró un registro documental que trata el conjunto de estrategias y métodos de recopilación de información plasmado en documentos, sean estos físicos o digitales, que por medio de herramientas concretas permiten la consulta de las fuentes de donde se obtiene dicha información. Una de las ventajas de elaborar registros documentales es que permite presentar la información recabada de una manera ordenada que, a su vez, facilita la presentación de resultados y hace que la consulta de los materiales sea ágil, permitiendo enunciar el marco teórico y conceptual que sustenta el objeto de estudio, que en este caso es el análisis de big data y su relación con los derechos humanos. Los retos que se desprenden del consumo y creación de información a través de la red incluyen necesidades de captura, manejo y procesamiento de grandes volúmenes de datos. En [16] los autores proponen un teorema llamado “HACE”(Heterogeneous, Autonomous, Complex y Evolving), con el cual buscan describir las características de la revolución de Big Data. El teorema plantea la existencia de un gran volumen de datos heterogéneos y provenientes de fuentes autónomas con control distribuido y descentralizado, y que trata de explorar relaciones complejas y cambiantes entre los datos. La heterogeneidad se refiere a los diferentes tipos de representaciones para los mismos individuos, y la diversidad de características se refiere a la variedad a la hora de representar cada observación particular.

  • El uso de grandes cantidades de datos es mucho más que una herramienta útil para la toma de decisiones, pues considera que el contar con esa metodología y esas técnicas de investigación del análisis de datos proporciona una visión única, dependiendo del contexto en el que se lleve a cabo, como en la política, la ciencia o los negocios.
  • Cabe aclarar que en este documento no se reportará la totalidad de los artículos arrojados por la herramienta, se ha realizado una selección de los documentos que cubren la temática, permitiendo tener una visión general del estado del arte y de las tendencias y campos de trabajo.
  • En este
    sentido, la web semántica sería la base sobre la cual construir la interoperabilidad
    de las plataformas de los medios sociales, proporcionando normas para “soportar” el
    intercambio de datos.
  • A diferencia de la estadística tradicional donde “la idea era estimar el modelo (…) propuesto por una teoría o tal vez por la experiencia previa” (el modelo es externo), el machine learning “permite construir, estimar y reevaluar el modelo a medida que se lo usa.
  • Lo importante de esta sinergia, es que ayuda de manera más eficaz a la atención médica, incluso una vez terminada la crisis.

Se observa en estos pronunciamientos la relevancia en el tema del uso de las tecnologías que pueden representar un riesgo para los derechos humanos. El 70% del universo digital es generado por nosotros mismos a través de nuestra interacción con los diferentes servicios de la red (e-mail, redes sociales, buscadores, Smartphone, etc.). Se trata de una realidad importante que hemos de tener en cuenta y que debe hacernos reflexionar sobre la efectividad de alguna de las normas vigentes en materia de datos personales ENT#091;…ENT#093; (2016, p. 29).

Diferencias entre big data y data science

Un lenguaje colaborativo que se puede definir como
una folksonomía controlada, cuya base es la indexación social y por objeto la
indización/categorización de las noticias. Destaca que la acción clasificatoria sea
colaborativa, realizada por periodistas, con filtros efectuados por expertos con
vistas a evitar la sinonimia y la polisemia, y enriqueciendo esta herramienta
mediante relaciones de “parentesco”. Se trataría de instrumentos y procesos que
llevan la información filtrada a aquella persona que lo necesite tras un proceso de
búsqueda, agrupación y organización, con una presentación que sea también proactiva. El bootcamp de TripleTen: único por su método de enseñanza y plan de carrera Como se puede observar, es una propuesta de marco de trabajo automatizado en el entorno periodístico, pero que se puede tomar como punto de partida interesante en la intersección entre web semántica y big data, también desde una perspectiva manual. En este sentido, la clave se sitúa en los procedimientos de representación-descripción de la información y el conocimiento, así como de las relaciones entre ellas, fundamentalmente con capacidad para que sean comprensibles desde un punto de vista informático. Esto nos retrotrae no sólo a los formalismos para la descripción de entidades, sino también a instrumentos como las ontologías.