Biais ou pas de biais : Détecter les biais dans les actualités avec bias-detector
To Bias or Not to Bias: Detecting bias in News with bias-detector
May 19, 2025
Auteurs: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI
Résumé
La détection des biais médiatiques est une tâche cruciale pour garantir une diffusion d'informations équitable et équilibrée, mais elle reste difficile en raison de la subjectivité des biais et de la rareté des données annotées de haute qualité. Dans ce travail, nous effectuons une classification des biais au niveau de la phrase en affinant un modèle basé sur RoBERTa sur le jeu de données BABE annoté par des experts. En utilisant le test de McNemar et le test t apparié de validation croisée 5x2, nous montrons des améliorations statistiquement significatives des performances par rapport à un modèle de référence DA-RoBERTa pré-entraîné de manière adaptative au domaine. De plus, une analyse basée sur l'attention montre que notre modèle évite les écueils courants comme une hypersensibilité aux termes politiquement chargés et se concentre plutôt de manière plus significative sur les tokens contextuellement pertinents. Pour un examen complet des biais médiatiques, nous présentons un pipeline qui combine notre modèle avec un classificateur de types de biais déjà existant. Notre méthode montre une bonne généralisation et interprétabilité, malgré les contraintes liées à l'analyse au niveau de la phrase et à la taille du jeu de données en raison du manque de corpus de biais plus vastes et plus avancés. Nous discutons de la modélisation contextuelle, de la neutralisation des biais et de la classification avancée des types de biais comme directions futures potentielles. Nos résultats contribuent à la construction de systèmes NLP plus robustes, explicables et socialement responsables pour la détection des biais médiatiques.
English
Media bias detection is a critical task in ensuring fair and balanced
information dissemination, yet it remains challenging due to the subjectivity
of bias and the scarcity of high-quality annotated data. In this work, we
perform sentence-level bias classification by fine-tuning a RoBERTa-based model
on the expert-annotated BABE dataset. Using McNemar's test and the 5x2
cross-validation paired t-test, we show statistically significant improvements
in performance when comparing our model to a domain-adaptively pre-trained
DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model
avoids common pitfalls like oversensitivity to politically charged terms and
instead attends more meaningfully to contextually relevant tokens. For a
comprehensive examination of media bias, we present a pipeline that combines
our model with an already-existing bias-type classifier. Our method exhibits
good generalization and interpretability, despite being constrained by
sentence-level analysis and dataset size because of a lack of larger and more
advanced bias corpora. We talk about context-aware modeling, bias
neutralization, and advanced bias type classification as potential future
directions. Our findings contribute to building more robust, explainable, and
socially responsible NLP systems for media bias detection.Summary
AI-Generated Summary