¿Sesgar o no sesgar? Detección de sesgos en noticias con bias-detector
To Bias or Not to Bias: Detecting bias in News with bias-detector
May 19, 2025
Autores: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI
Resumen
La detección de sesgos en los medios es una tarea crucial para garantizar una difusión de información justa y equilibrada, aunque sigue siendo un desafío debido a la subjetividad del sesgo y la escasez de datos anotados de alta calidad. En este trabajo, realizamos una clasificación de sesgos a nivel de oración mediante el ajuste fino de un modelo basado en RoBERTa utilizando el conjunto de datos BABE, anotado por expertos. Mediante la prueba de McNemar y la prueba t pareada de validación cruzada 5x2, demostramos mejoras estadísticamente significativas en el rendimiento al comparar nuestro modelo con una línea de base de DA-RoBERTa preentrenada de manera adaptativa al dominio. Además, el análisis basado en atención muestra que nuestro modelo evita errores comunes, como la hipersensibilidad a términos políticamente cargados, y en su lugar se enfoca de manera más significativa en tokens contextualmente relevantes. Para un examen exhaustivo del sesgo en los medios, presentamos una canalización que combina nuestro modelo con un clasificador de tipos de sesgo ya existente. Nuestro método exhibe una buena generalización e interpretabilidad, a pesar de estar limitado por el análisis a nivel de oración y el tamaño del conjunto de datos debido a la falta de corpus de sesgos más grandes y avanzados. Discutimos el modelado consciente del contexto, la neutralización de sesgos y la clasificación avanzada de tipos de sesgo como posibles direcciones futuras. Nuestros hallazgos contribuyen a la construcción de sistemas de PLN más robustos, explicables y socialmente responsables para la detección de sesgos en los medios.
English
Media bias detection is a critical task in ensuring fair and balanced
information dissemination, yet it remains challenging due to the subjectivity
of bias and the scarcity of high-quality annotated data. In this work, we
perform sentence-level bias classification by fine-tuning a RoBERTa-based model
on the expert-annotated BABE dataset. Using McNemar's test and the 5x2
cross-validation paired t-test, we show statistically significant improvements
in performance when comparing our model to a domain-adaptively pre-trained
DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model
avoids common pitfalls like oversensitivity to politically charged terms and
instead attends more meaningfully to contextually relevant tokens. For a
comprehensive examination of media bias, we present a pipeline that combines
our model with an already-existing bias-type classifier. Our method exhibits
good generalization and interpretability, despite being constrained by
sentence-level analysis and dataset size because of a lack of larger and more
advanced bias corpora. We talk about context-aware modeling, bias
neutralization, and advanced bias type classification as potential future
directions. Our findings contribute to building more robust, explainable, and
socially responsible NLP systems for media bias detection.Summary
AI-Generated Summary