Bias oder kein Bias: Erkennung von Verzerrungen in Nachrichten mit dem Bias-Detektor
To Bias or Not to Bias: Detecting bias in News with bias-detector
May 19, 2025
Autoren: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI
Zusammenfassung
Die Erkennung von Medienverzerrungen ist eine entscheidende Aufgabe, um eine faire und ausgewogene Informationsverbreitung zu gewährleisten, bleibt jedoch aufgrund der Subjektivität von Verzerrungen und der Knappheit hochwertiger annotierter Daten eine Herausforderung. In dieser Arbeit führen wir eine Satzebenen-Verzerrungsklassifizierung durch, indem wir ein RoBERTa-basiertes Modell auf dem von Experten annotierten BABE-Datensatz feinabstimmen. Mithilfe des McNemar-Tests und des gepaarten t-Tests mit 5x2 Kreuzvalidierung zeigen wir statistisch signifikante Verbesserungen der Leistung im Vergleich zu einem domänenadaptiv vortrainierten DA-RoBERTa-Basismodell. Darüber hinaus zeigt eine auf Aufmerksamkeit basierende Analyse, dass unser Modell häufige Fallstricke wie eine Überempfindlichkeit gegenüber politisch aufgeladenen Begriffen vermeidet und stattdessen sinnvollerweise kontextuell relevante Tokens berücksichtigt. Für eine umfassende Untersuchung von Medienverzerrungen präsentieren wir eine Pipeline, die unser Modell mit einem bereits existierenden Verzerrungstyp-Klassifikator kombiniert. Unser Verfahren zeigt eine gute Generalisierungsfähigkeit und Interpretierbarkeit, obwohl es durch die Satzebenen-Analyse und die begrenzte Datensatzgröße aufgrund des Mangels an größeren und fortschrittlicheren Verzerrungskorpora eingeschränkt ist. Wir diskutieren kontextbewusste Modellierung, Verzerrungsneutralisierung und fortgeschrittene Verzerrungstyp-Klassifizierung als potenzielle zukünftige Richtungen. Unsere Ergebnisse tragen dazu bei, robustere, erklärbare und sozial verantwortungsvolle NLP-Systeme zur Erkennung von Medienverzerrungen zu entwickeln.
English
Media bias detection is a critical task in ensuring fair and balanced
information dissemination, yet it remains challenging due to the subjectivity
of bias and the scarcity of high-quality annotated data. In this work, we
perform sentence-level bias classification by fine-tuning a RoBERTa-based model
on the expert-annotated BABE dataset. Using McNemar's test and the 5x2
cross-validation paired t-test, we show statistically significant improvements
in performance when comparing our model to a domain-adaptively pre-trained
DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model
avoids common pitfalls like oversensitivity to politically charged terms and
instead attends more meaningfully to contextually relevant tokens. For a
comprehensive examination of media bias, we present a pipeline that combines
our model with an already-existing bias-type classifier. Our method exhibits
good generalization and interpretability, despite being constrained by
sentence-level analysis and dataset size because of a lack of larger and more
advanced bias corpora. We talk about context-aware modeling, bias
neutralization, and advanced bias type classification as potential future
directions. Our findings contribute to building more robust, explainable, and
socially responsible NLP systems for media bias detection.Summary
AI-Generated Summary