Bias o Non Bias: Rilevare i pregiudizi nelle notizie con bias-detector
To Bias or Not to Bias: Detecting bias in News with bias-detector
May 19, 2025
Autori: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI
Abstract
La rilevazione del bias mediatico è un compito cruciale per garantire una diffusione delle informazioni equa e bilanciata, ma rimane impegnativo a causa della soggettività del bias e della scarsità di dati annotati di alta qualità. In questo lavoro, eseguiamo una classificazione del bias a livello di frase ottimizzando un modello basato su RoBERTa sul dataset BABE annotato da esperti. Utilizzando il test di McNemar e il test t accoppiato con validazione incrociata 5x2, dimostriamo miglioramenti statisticamente significativi nelle prestazioni rispetto a una baseline DA-RoBERTa pre-addestrata con adattamento al dominio. Inoltre, un'analisi basata sull'attenzione mostra che il nostro modello evita errori comuni come l'eccessiva sensibilità ai termini politicamente carichi e si concentra invece in modo più significativo sui token rilevanti dal punto di vista contestuale. Per un esame completo del bias mediatico, presentiamo una pipeline che combina il nostro modello con un classificatore di tipi di bias già esistente. Il nostro metodo mostra una buona generalizzazione e interpretabilità, nonostante sia limitato dall'analisi a livello di frase e dalla dimensione del dataset a causa della mancanza di corpora di bias più ampi e avanzati. Discutiamo la modellazione contestuale, la neutralizzazione del bias e la classificazione avanzata dei tipi di bias come potenziali direzioni future. I nostri risultati contribuiscono alla costruzione di sistemi NLP più robusti, spiegabili e socialmente responsabili per la rilevazione del bias mediatico.
English
Media bias detection is a critical task in ensuring fair and balanced
information dissemination, yet it remains challenging due to the subjectivity
of bias and the scarcity of high-quality annotated data. In this work, we
perform sentence-level bias classification by fine-tuning a RoBERTa-based model
on the expert-annotated BABE dataset. Using McNemar's test and the 5x2
cross-validation paired t-test, we show statistically significant improvements
in performance when comparing our model to a domain-adaptively pre-trained
DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model
avoids common pitfalls like oversensitivity to politically charged terms and
instead attends more meaningfully to contextually relevant tokens. For a
comprehensive examination of media bias, we present a pipeline that combines
our model with an already-existing bias-type classifier. Our method exhibits
good generalization and interpretability, despite being constrained by
sentence-level analysis and dataset size because of a lack of larger and more
advanced bias corpora. We talk about context-aware modeling, bias
neutralization, and advanced bias type classification as potential future
directions. Our findings contribute to building more robust, explainable, and
socially responsible NLP systems for media bias detection.