Polarizar ou Não Polarizar: Detecção de viés em notícias com o bias-detector

Resumo

A detecção de viés midiático é uma tarefa crucial para garantir a disseminação de informações justas e equilibradas, mas continua sendo desafiadora devido à subjetividade do viés e à escassez de dados anotados de alta qualidade. Neste trabalho, realizamos a classificação de viés em nível de frase ajustando um modelo baseado em RoBERTa no conjunto de dados BABE, anotado por especialistas. Utilizando o teste de McNemar e o teste t pareado de validação cruzada 5x2, mostramos melhorias estatisticamente significativas no desempenho ao comparar nosso modelo com uma linha de base DA-RoBERTa pré-treinada com adaptação de domínio. Além disso, a análise baseada em atenção mostra que nosso modelo evita armadilhas comuns, como a super sensibilidade a termos politicamente carregados, e, em vez disso, se concentra de forma mais significativa em tokens contextualmente relevantes. Para um exame abrangente do viés midiático, apresentamos um pipeline que combina nosso modelo com um classificador de tipo de viés já existente. Nosso método exibe boa generalização e interpretabilidade, apesar de ser limitado pela análise em nível de frase e pelo tamanho do conjunto de dados, devido à falta de corpora de viés maiores e mais avançados. Discutimos a modelagem consciente do contexto, a neutralização de viés e a classificação avançada de tipos de viés como possíveis direções futuras. Nossas descobertas contribuem para a construção de sistemas de PLN mais robustos, explicáveis e socialmente responsáveis para a detecção de viés midiático.

English

Media bias detection is a critical task in ensuring fair and balanced information dissemination, yet it remains challenging due to the subjectivity of bias and the scarcity of high-quality annotated data. In this work, we perform sentence-level bias classification by fine-tuning a RoBERTa-based model on the expert-annotated BABE dataset. Using McNemar's test and the 5x2 cross-validation paired t-test, we show statistically significant improvements in performance when comparing our model to a domain-adaptively pre-trained DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model avoids common pitfalls like oversensitivity to politically charged terms and instead attends more meaningfully to contextually relevant tokens. For a comprehensive examination of media bias, we present a pipeline that combines our model with an already-existing bias-type classifier. Our method exhibits good generalization and interpretability, despite being constrained by sentence-level analysis and dataset size because of a lack of larger and more advanced bias corpora. We talk about context-aware modeling, bias neutralization, and advanced bias type classification as potential future directions. Our findings contribute to building more robust, explainable, and socially responsible NLP systems for media bias detection.

Polarizar ou Não Polarizar: Detecção de viés em notícias com o bias-detector

To Bias or Not to Bias: Detecting bias in News with bias-detector

Resumo

Support