バイアスか否か:バイアス検出器を用いたニュースのバイアス検出
To Bias or Not to Bias: Detecting bias in News with bias-detector
May 19, 2025
著者: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI
要旨
メディアバイアス検出は、公平でバランスの取れた情報伝達を確保する上で重要な課題であるが、バイアスの主観性や高品質な注釈データの不足により、依然として困難を伴う。本研究では、専門家が注釈を付けたBABEデータセットを用いて、RoBERTaベースのモデルをファインチューニングし、文レベルのバイアス分類を行う。McNemarの検定と5x2クロスバリデーションに基づく対応のあるt検定を用いて、ドメイン適応的に事前学習されたDA-RoBERTaベースラインと比較した場合、我々のモデルが統計的に有意な性能向上を示すことを明らかにした。さらに、アテンションベースの分析により、我々のモデルが政治的に過敏な用語への過剰反応といった一般的な落とし穴を回避し、代わりに文脈上関連性の高いトークンにより意味のある注意を向けていることが示された。メディアバイアスを包括的に検証するため、既存のバイアスタイプ分類器と我々のモデルを組み合わせたパイプラインを提案する。大規模で高度なバイアスコーパスの不足により文レベル分析とデータセットサイズに制約があるものの、我々の手法は良好な汎化性能と解釈可能性を示した。今後の方向性として、文脈を考慮したモデリング、バイアス中和、高度なバイアスタイプ分類について議論する。我々の知見は、メディアバイアス検出のためのより堅牢で説明可能かつ社会的責任を果たすNLPシステムの構築に貢献するものである。
English
Media bias detection is a critical task in ensuring fair and balanced
information dissemination, yet it remains challenging due to the subjectivity
of bias and the scarcity of high-quality annotated data. In this work, we
perform sentence-level bias classification by fine-tuning a RoBERTa-based model
on the expert-annotated BABE dataset. Using McNemar's test and the 5x2
cross-validation paired t-test, we show statistically significant improvements
in performance when comparing our model to a domain-adaptively pre-trained
DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model
avoids common pitfalls like oversensitivity to politically charged terms and
instead attends more meaningfully to contextually relevant tokens. For a
comprehensive examination of media bias, we present a pipeline that combines
our model with an already-existing bias-type classifier. Our method exhibits
good generalization and interpretability, despite being constrained by
sentence-level analysis and dataset size because of a lack of larger and more
advanced bias corpora. We talk about context-aware modeling, bias
neutralization, and advanced bias type classification as potential future
directions. Our findings contribute to building more robust, explainable, and
socially responsible NLP systems for media bias detection.