Mapeando el Paisaje Mediático: Prediciendo la Cobertura Factual y el Sesgo Político a Través de Interacciones en la Web

Resumen

La evaluación de sesgos en las fuentes de noticias es fundamental para profesionales, organizaciones e investigadores que dependen de pruebas verídicas para la recopilación y reporte de información. Si bien ciertos indicadores de sesgo son discernibles a través del análisis de contenido, descriptores como sesgo político y noticias falsas plantean desafíos mayores. En este artículo, proponemos una extensión a un método de estimación de confiabilidad de medios de comunicación recientemente presentado que se enfoca en modelar los medios y sus interacciones web longitudinales. Concretamente, evaluamos el rendimiento de clasificación de cuatro estrategias de aprendizaje por refuerzo en un grafo de hiperenlaces de medios de comunicación de noticias grande. Nuestros experimentos, dirigidos a dos descriptores de sesgo desafiantes, reporte factual y sesgo político, mostraron una mejora significativa en el rendimiento a nivel de los medios de origen. Además, validamos nuestros métodos en el desafío del laboratorio CheckThat! de CLEF 2023, superando los resultados informados en ambos, el puntaje F1 y la métrica MAE oficial. Además, contribuimos liberando el conjunto de datos anotado más grande de medios de comunicación de fuentes de noticias, categorizados con etiquetas de reporte factual y sesgo político. Nuestros hallazgos sugieren que perfilar las fuentes de medios de comunicación basándose en sus interacciones de hiperenlaces a lo largo del tiempo es factible, ofreciendo una visión general de los paisajes mediáticos en evolución.

English

Bias assessment of news sources is paramount for professionals, organizations, and researchers who rely on truthful evidence for information gathering and reporting. While certain bias indicators are discernible from content analysis, descriptors like political bias and fake news pose greater challenges. In this paper, we propose an extension to a recently presented news media reliability estimation method that focuses on modeling outlets and their longitudinal web interactions. Concretely, we assess the classification performance of four reinforcement learning strategies on a large news media hyperlink graph. Our experiments, targeting two challenging bias descriptors, factual reporting and political bias, showed a significant performance improvement at the source media level. Additionally, we validate our methods on the CLEF 2023 CheckThat! Lab challenge, outperforming the reported results in both, F1-score and the official MAE metric. Furthermore, we contribute by releasing the largest annotated dataset of news source media, categorized with factual reporting and political bias labels. Our findings suggest that profiling news media sources based on their hyperlink interactions over time is feasible, offering a bird's-eye view of evolving media landscapes.

Mapeando el Paisaje Mediático: Prediciendo la Cobertura Factual y el Sesgo Político a Través de Interacciones en la Web

Mapping the Media Landscape: Predicting Factual Reporting and Political Bias Through Web Interactions

Resumen

Support