ChatPaper.aiChatPaper

Hatevolution: Wat statische benchmarks ons niet vertellen

Hatevolution: What Static Benchmarks Don't Tell Us

June 13, 2025
Auteurs: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI

Samenvatting

Taal verandert in de loop van de tijd, ook op het gebied van haatspraak, dat snel evolueert als gevolg van sociale dynamiek en culturele verschuivingen. Hoewel NLP-onderzoek de impact van taalverandering op modeltraining heeft onderzocht en verschillende oplossingen heeft voorgesteld, blijft de impact ervan op modelbenchmarking onderbelicht. Toch spelen haatspraakbenchmarks een cruciale rol om de veiligheid van modellen te waarborgen. In dit artikel evalueren we empirisch de robuustheid van 20 taalmodellen in twee experimenten met evoluerende haatspraak, en tonen we de temporele mismatch tussen statische en tijdsgevoelige evaluaties. Onze bevindingen pleiten voor tijdsgevoelige linguïstische benchmarks om taalmodellen in het domein van haatspraak correct en betrouwbaar te kunnen evalueren.
English
Language changes over time, including in the hate speech domain, which evolves quickly following social dynamics and cultural shifts. While NLP research has investigated the impact of language evolution on model training and has proposed several solutions for it, its impact on model benchmarking remains under-explored. Yet, hate speech benchmarks play a crucial role to ensure model safety. In this paper, we empirically evaluate the robustness of 20 language models across two evolving hate speech experiments, and we show the temporal misalignment between static and time-sensitive evaluations. Our findings call for time-sensitive linguistic benchmarks in order to correctly and reliably evaluate language models in the hate speech domain.
PDF12June 17, 2025