Bias of geen Bias: Het detecteren van bias in nieuws met een bias-detector
To Bias or Not to Bias: Detecting bias in News with bias-detector
May 19, 2025
Auteurs: Himel Ghosh, Ahmed Mosharafa, Georg Groh
cs.AI
Samenvatting
Het detecteren van mediabias is een cruciale taak om een eerlijke en evenwichtige verspreiding van informatie te waarborgen, maar blijft uitdagend vanwege de subjectiviteit van bias en het gebrek aan hoogwaardige geannoteerde data. In dit werk voeren we zinsniveau biasclassificatie uit door een RoBERTa-gebaseerd model te finetunen op de door experts geannoteerde BABE-dataset. Met behulp van McNemar's test en de 5x2 cross-validatie gepaarde t-test laten we statistisch significante verbeteringen in prestaties zien wanneer we ons model vergelijken met een domeinadaptief voorgetraind DA-RoBERTa-basismodel. Bovendien toont aandacht-gebaseerde analyse aan dat ons model veelvoorkomende valkuilen vermijdt, zoals overgevoeligheid voor politiek geladen termen, en in plaats daarvan betekenisvoller aandacht besteedt aan contextueel relevante tokens. Voor een uitgebreid onderzoek naar mediabias presenteren we een pijplijn die ons model combineert met een reeds bestaande bias-typeclassificator. Onze methode vertoont goede generalisatie en interpreteerbaarheid, ondanks beperkingen door zinsniveau-analyse en datasetgrootte vanwege het ontbreken van grotere en meer geavanceerde bias-corpora. We bespreken contextbewuste modellering, biasneutralisatie en geavanceerde bias-typeclassificatie als mogelijke toekomstige richtingen. Onze bevindingen dragen bij aan het bouwen van robuustere, verklaarbare en maatschappelijk verantwoorde NLP-systemen voor mediabiasdetectie.
English
Media bias detection is a critical task in ensuring fair and balanced
information dissemination, yet it remains challenging due to the subjectivity
of bias and the scarcity of high-quality annotated data. In this work, we
perform sentence-level bias classification by fine-tuning a RoBERTa-based model
on the expert-annotated BABE dataset. Using McNemar's test and the 5x2
cross-validation paired t-test, we show statistically significant improvements
in performance when comparing our model to a domain-adaptively pre-trained
DA-RoBERTa baseline. Furthermore, attention-based analysis shows that our model
avoids common pitfalls like oversensitivity to politically charged terms and
instead attends more meaningfully to contextually relevant tokens. For a
comprehensive examination of media bias, we present a pipeline that combines
our model with an already-existing bias-type classifier. Our method exhibits
good generalization and interpretability, despite being constrained by
sentence-level analysis and dataset size because of a lack of larger and more
advanced bias corpora. We talk about context-aware modeling, bias
neutralization, and advanced bias type classification as potential future
directions. Our findings contribute to building more robust, explainable, and
socially responsible NLP systems for media bias detection.Summary
AI-Generated Summary