Polarizar ou Não Polarizar: Detecção de viés em notícias com o bias-detector
To Bias or Not to Bias: Detecting bias in News with bias-detector
May 19, 2025
Autores: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI
Resumo
A detecção de viés midiático é uma tarefa crucial para garantir a disseminação de informações justas e equilibradas, mas continua sendo desafiadora devido à subjetividade do viés e à escassez de dados anotados de alta qualidade. Neste trabalho, realizamos a classificação de viés em nível de frase ajustando um modelo baseado em RoBERTa no conjunto de dados BABE, anotado por especialistas. Utilizando o teste de McNemar e o teste t pareado de validação cruzada 5x2, mostramos melhorias estatisticamente significativas no desempenho ao comparar nosso modelo com uma linha de base DA-RoBERTa pré-treinada com adaptação de domínio. Além disso, a análise baseada em atenção mostra que nosso modelo evita armadilhas comuns, como a super sensibilidade a termos politicamente carregados, e, em vez disso, se concentra de forma mais significativa em tokens contextualmente relevantes. Para um exame abrangente do viés midiático, apresentamos um pipeline que combina nosso modelo com um classificador de tipo de viés já existente. Nosso método exibe boa generalização e interpretabilidade, apesar de ser limitado pela análise em nível de frase e pelo tamanho do conjunto de dados, devido à falta de corpora de viés maiores e mais avançados. Discutimos a modelagem consciente do contexto, a neutralização de viés e a classificação avançada de tipos de viés como possíveis direções futuras. Nossas descobertas contribuem para a construção de sistemas de PLN mais robustos, explicáveis e socialmente responsáveis para a detecção de viés midiático.
English
Media bias detection is a critical task in ensuring fair and balanced
information dissemination, yet it remains challenging due to the subjectivity
of bias and the scarcity of high-quality annotated data. In this work, we
perform sentence-level bias classification by fine-tuning a RoBERTa-based model
on the expert-annotated BABE dataset. Using McNemar's test and the 5x2
cross-validation paired t-test, we show statistically significant improvements
in performance when comparing our model to a domain-adaptively pre-trained
DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model
avoids common pitfalls like oversensitivity to politically charged terms and
instead attends more meaningfully to contextually relevant tokens. For a
comprehensive examination of media bias, we present a pipeline that combines
our model with an already-existing bias-type classifier. Our method exhibits
good generalization and interpretability, despite being constrained by
sentence-level analysis and dataset size because of a lack of larger and more
advanced bias corpora. We talk about context-aware modeling, bias
neutralization, and advanced bias type classification as potential future
directions. Our findings contribute to building more robust, explainable, and
socially responsible NLP systems for media bias detection.