Склоняться или не склоняться: Выявление предвзятости в новостях с помощью детектора предвзятости
To Bias or Not to Bias: Detecting bias in News with bias-detector
May 19, 2025
Авторы: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI
Аннотация
Обнаружение медийной предвзятости является важной задачей для обеспечения справедливого и сбалансированного распространения информации, однако она остается сложной из-за субъективности предвзятости и недостатка высококачественных аннотированных данных. В данной работе мы выполняем классификацию предвзятости на уровне предложений, дообучая модель на основе RoBERTa на экспертно аннотированном наборе данных BABE. Используя тест Макнемара и парный t-тест с 5x2 кросс-валидацией, мы демонстрируем статистически значимое улучшение производительности по сравнению с базовой моделью DA-RoBERTa, предварительно обученной с адаптацией к домену. Кроме того, анализ на основе механизма внимания показывает, что наша модель избегает распространенных ошибок, таких как чрезмерная чувствительность к политически заряженным терминам, и вместо этого более осмысленно учитывает контекстуально значимые токены. Для всестороннего изучения медийной предвзятости мы представляем конвейер, который объединяет нашу модель с уже существующим классификатором типов предвзятости. Наш метод демонстрирует хорошую обобщаемость и интерпретируемость, несмотря на ограничения, связанные с анализом на уровне предложений и размером набора данных из-за отсутствия более крупных и продвинутых корпусов предвзятости. Мы обсуждаем контекстно-зависимое моделирование, нейтрализацию предвзятости и классификацию продвинутых типов предвзятости как потенциальные направления для будущих исследований. Наши результаты способствуют созданию более надежных, объяснимых и социально ответственных NLP-систем для обнаружения медийной предвзятости.
English
Media bias detection is a critical task in ensuring fair and balanced
information dissemination, yet it remains challenging due to the subjectivity
of bias and the scarcity of high-quality annotated data. In this work, we
perform sentence-level bias classification by fine-tuning a RoBERTa-based model
on the expert-annotated BABE dataset. Using McNemar's test and the 5x2
cross-validation paired t-test, we show statistically significant improvements
in performance when comparing our model to a domain-adaptively pre-trained
DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model
avoids common pitfalls like oversensitivity to politically charged terms and
instead attends more meaningfully to contextually relevant tokens. For a
comprehensive examination of media bias, we present a pipeline that combines
our model with an already-existing bias-type classifier. Our method exhibits
good generalization and interpretability, despite being constrained by
sentence-level analysis and dataset size because of a lack of larger and more
advanced bias corpora. We talk about context-aware modeling, bias
neutralization, and advanced bias type classification as potential future
directions. Our findings contribute to building more robust, explainable, and
socially responsible NLP systems for media bias detection.Summary
AI-Generated Summary