Usa técnicas aplicadas en ciencia de datos.
Con el objetivo de identificar si existe una correlación entre las menciones negativas en Twitter y el número de retweets relacionados con el Coronavirus, para desarrollar herramientas que permitan clasificar la veracidad de las noticias y evitar la desinformación, científicos mexicanos crearon un robot.
A partir de técnicas aplicadas en ciencia de datos, el equipo liderado por el ingeniero Ismael Peregrina realizó un diccionario de Twitter y analizando 30 mil tweets, creó una clasificación para medir la positividad de las publicaciones en una escala de decimales que va del +1.0 al -1.0.
“Si bien se descubrió con esta información que no hay una correlación entre la negatividad y la propagación de la información, saltaron a la vista dos situaciones atípicas donde el mayor número de retweets fueron de publicaciones negativas de cuentas no verificadas, con 9 mil 353 y 8 mil 427 retweets. Mientras que cuentas verificadas, como la Secretaría de Salud se presentan una cantidad de retweets mucho menor a las antes mencionadas”.
El proyecto denominado “Análisis Exploratorio de Tweets con Análisis de Sentimiento para determinar la viralidad de una mención con relación a su sentimiento”, obtuvo el primer lugar COVID-19 Challenge, organizado por el Colegio de Médicos Cirujanos del Estado de Nuevo León, Data Science Monterrey, Hacking Health Monterrey, Women in Data Science, Power and Engineering y Saturday AI Monterrey.
Existen diferentes factores que pueden viralizar un post, desde las palabras utilizadas, hasta el propietario de la cuenta, verificación de la cuenta, momento de la emisión del post respecto a la situación que está ocurriendo, explicó Ismael Peregrina, Líder de inteligencia y científico de datos Universidad Tecmilenio.
“Por ejemplo, el 24 de febrero cuando se hizo la obtención de datos, una de las palabras más comunes era Italia debido a la confirmación de casos. Ahora que tenemos estos factores, contamos con el diccionario y la clasificación de positividad podremos desarrollar una escala de veracidad que divida en noticia, ironía, sarcasmo, chiste, meme, spam, etcétera”.
El especialista refirió que 80 por ciento del tiempo del proyecto se consume en la preparación de los datos; la inmediatez con la que hay que tratar las cifras en tiempo real para tomar acciones requiere de contar con procesos, recursos y arquitectura para informar a la población lo que en realidad esté ocurriendo.
Con este proyecto se da un paso importante en el objetivo de facilitar que la población, según el emisor y la clasificación de publicaciones, pueda estar informada con fuentes veraces.
“Además, podremos comparar la epidemia actual de COVID-19 con otras epidemias para identificar patrones y analizar fuentes de diferentes canales o medios digitales para identificar y evitar la propagación del pánico”.
Como ganador del primer lugar, esta tecnología será apoyada por TecSalud y el colegio de Médicos de Nuevo León para darle seguimiento al proyecto. Además, el equipo fue patrocinado con apoyos para Amazon Web Services y el uso de una super computadora (CIIA) para seguir desarrollando esta herramienta.
C$T-GM