Perfilado de medios de noticias para verificar factualidad y sesgo utilizando LLMs y la metodología de verificación de hechos de expertos humanos
Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts
June 14, 2025
Autores: Zain Muhammad Mujahid, Dilshod Azizov, Maha Tufail Agro, Preslav Nakov
cs.AI
Resumen
En una era caracterizada por la proliferación de desinformación y noticias falsas en línea, es crucial capacitar a los lectores para que comprendan el contenido que están leyendo. Esfuerzos importantes en esta dirección se basan en la verificación manual o automática de hechos, lo cual puede ser desafiante para afirmaciones emergentes con información limitada. Dichos escenarios pueden abordarse evaluando la confiabilidad y el sesgo político de la fuente de la afirmación, es decir, caracterizando medios de comunicación completos en lugar de afirmaciones o artículos individuales. Esta es una dirección de investigación importante pero poco estudiada. Si bien trabajos previos han explorado contextos lingüísticos y sociales, no analizamos artículos individuales o información en redes sociales. En su lugar, proponemos una metodología novedosa que emula los criterios que utilizan los verificadores de hechos profesionales para evaluar la factualidad y el sesgo político de un medio de comunicación en su totalidad. Específicamente, diseñamos una variedad de indicaciones basadas en estos criterios y obtenemos respuestas de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), las cuales agregamos para hacer predicciones. Además de demostrar mejoras significativas sobre líneas base sólidas mediante experimentos extensos con múltiples LLMs, proporcionamos un análisis detallado de errores sobre el efecto de la popularidad y la región de los medios en el rendimiento del modelo. Asimismo, realizamos un estudio de ablación para resaltar los componentes clave de nuestro conjunto de datos que contribuyen a estas mejoras. Para facilitar investigaciones futuras, hemos publicado nuestro conjunto de datos y código en https://github.com/mbzuai-nlp/llm-media-profiling.
English
In an age characterized by the proliferation of mis- and disinformation
online, it is critical to empower readers to understand the content they are
reading. Important efforts in this direction rely on manual or automatic
fact-checking, which can be challenging for emerging claims with limited
information. Such scenarios can be handled by assessing the reliability and the
political bias of the source of the claim, i.e., characterizing entire news
outlets rather than individual claims or articles. This is an important but
understudied research direction. While prior work has looked into linguistic
and social contexts, we do not analyze individual articles or information in
social media. Instead, we propose a novel methodology that emulates the
criteria that professional fact-checkers use to assess the factuality and
political bias of an entire outlet. Specifically, we design a variety of
prompts based on these criteria and elicit responses from large language models
(LLMs), which we aggregate to make predictions. In addition to demonstrating
sizable improvements over strong baselines via extensive experiments with
multiple LLMs, we provide an in-depth error analysis of the effect of media
popularity and region on model performance. Further, we conduct an ablation
study to highlight the key components of our dataset that contribute to these
improvements. To facilitate future research, we released our dataset and code
at https://github.com/mbzuai-nlp/llm-media-profiling.