Profilage des médias d'information pour la factualité et le biais à l'aide de LLM et de la méthodologie de vérification des faits des experts humains
Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts
June 14, 2025
Auteurs: Zain Muhammad Mujahid, Dilshod Azizov, Maha Tufail Agro, Preslav Nakov
cs.AI
Résumé
À une époque marquée par la prolifération de la désinformation et de la mésinformation en ligne, il est essentiel de donner aux lecteurs les moyens de comprendre le contenu qu'ils consultent. Des efforts importants dans cette direction reposent sur la vérification manuelle ou automatique des faits, ce qui peut s'avérer difficile pour des affirmations émergentes avec des informations limitées. De tels scénarios peuvent être abordés en évaluant la fiabilité et le biais politique de la source de l'affirmation, c'est-à-dire en caractérisant des organes de presse entiers plutôt que des affirmations ou des articles individuels. Il s'agit d'une direction de recherche importante mais encore peu explorée. Alors que les travaux antérieurs se sont penchés sur les contextes linguistiques et sociaux, nous n'analysons pas des articles individuels ou des informations sur les réseaux sociaux. Au lieu de cela, nous proposons une nouvelle méthodologie qui imite les critères utilisés par les vérificateurs professionnels pour évaluer la factualité et le biais politique d'un organe de presse dans son ensemble. Plus précisément, nous concevons une variété d'invites basées sur ces critères et sollicitons des réponses de grands modèles de langage (LLM), que nous agrégeons pour faire des prédictions. En plus de démontrer des améliorations significatives par rapport à des bases de référence solides grâce à des expériences approfondies avec plusieurs LLM, nous fournissons une analyse approfondie des erreurs concernant l'effet de la popularité des médias et de la région sur la performance des modèles. De plus, nous menons une étude d'ablation pour mettre en évidence les composants clés de notre ensemble de données qui contribuent à ces améliorations. Pour faciliter les recherches futures, nous avons publié notre ensemble de données et notre code à l'adresse https://github.com/mbzuai-nlp/llm-media-profiling.
English
In an age characterized by the proliferation of mis- and disinformation
online, it is critical to empower readers to understand the content they are
reading. Important efforts in this direction rely on manual or automatic
fact-checking, which can be challenging for emerging claims with limited
information. Such scenarios can be handled by assessing the reliability and the
political bias of the source of the claim, i.e., characterizing entire news
outlets rather than individual claims or articles. This is an important but
understudied research direction. While prior work has looked into linguistic
and social contexts, we do not analyze individual articles or information in
social media. Instead, we propose a novel methodology that emulates the
criteria that professional fact-checkers use to assess the factuality and
political bias of an entire outlet. Specifically, we design a variety of
prompts based on these criteria and elicit responses from large language models
(LLMs), which we aggregate to make predictions. In addition to demonstrating
sizable improvements over strong baselines via extensive experiments with
multiple LLMs, we provide an in-depth error analysis of the effect of media
popularity and region on model performance. Further, we conduct an ablation
study to highlight the key components of our dataset that contribute to these
improvements. To facilitate future research, we released our dataset and code
at https://github.com/mbzuai-nlp/llm-media-profiling.