ChatPaper.aiChatPaper

Bias oder kein Bias: Erkennung von Verzerrungen in Nachrichten mit dem Bias-Detektor

To Bias or Not to Bias: Detecting bias in News with bias-detector

May 19, 2025
Autoren: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI

Zusammenfassung

Die Erkennung von Medienverzerrungen ist eine entscheidende Aufgabe, um eine faire und ausgewogene Informationsverbreitung zu gewährleisten, bleibt jedoch aufgrund der Subjektivität von Verzerrungen und der Knappheit hochwertiger annotierter Daten eine Herausforderung. In dieser Arbeit führen wir eine Satzebenen-Verzerrungsklassifizierung durch, indem wir ein RoBERTa-basiertes Modell auf dem von Experten annotierten BABE-Datensatz feinabstimmen. Mithilfe des McNemar-Tests und des gepaarten t-Tests mit 5x2 Kreuzvalidierung zeigen wir statistisch signifikante Verbesserungen der Leistung im Vergleich zu einem domänenadaptiv vortrainierten DA-RoBERTa-Basismodell. Darüber hinaus zeigt eine auf Aufmerksamkeit basierende Analyse, dass unser Modell häufige Fallstricke wie eine Überempfindlichkeit gegenüber politisch aufgeladenen Begriffen vermeidet und stattdessen sinnvollerweise kontextuell relevante Tokens berücksichtigt. Für eine umfassende Untersuchung von Medienverzerrungen präsentieren wir eine Pipeline, die unser Modell mit einem bereits existierenden Verzerrungstyp-Klassifikator kombiniert. Unser Verfahren zeigt eine gute Generalisierungsfähigkeit und Interpretierbarkeit, obwohl es durch die Satzebenen-Analyse und die begrenzte Datensatzgröße aufgrund des Mangels an größeren und fortschrittlicheren Verzerrungskorpora eingeschränkt ist. Wir diskutieren kontextbewusste Modellierung, Verzerrungsneutralisierung und fortgeschrittene Verzerrungstyp-Klassifizierung als potenzielle zukünftige Richtungen. Unsere Ergebnisse tragen dazu bei, robustere, erklärbare und sozial verantwortungsvolle NLP-Systeme zur Erkennung von Medienverzerrungen zu entwickeln.
English
Media bias detection is a critical task in ensuring fair and balanced information dissemination, yet it remains challenging due to the subjectivity of bias and the scarcity of high-quality annotated data. In this work, we perform sentence-level bias classification by fine-tuning a RoBERTa-based model on the expert-annotated BABE dataset. Using McNemar's test and the 5x2 cross-validation paired t-test, we show statistically significant improvements in performance when comparing our model to a domain-adaptively pre-trained DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model avoids common pitfalls like oversensitivity to politically charged terms and instead attends more meaningfully to contextually relevant tokens. For a comprehensive examination of media bias, we present a pipeline that combines our model with an already-existing bias-type classifier. Our method exhibits good generalization and interpretability, despite being constrained by sentence-level analysis and dataset size because of a lack of larger and more advanced bias corpora. We talk about context-aware modeling, bias neutralization, and advanced bias type classification as potential future directions. Our findings contribute to building more robust, explainable, and socially responsible NLP systems for media bias detection.

Summary

AI-Generated Summary

PDF22May 21, 2025