Hatevolution: Was statische Benchmarks uns nicht verraten
Hatevolution: What Static Benchmarks Don't Tell Us
June 13, 2025
Autoren: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI
Zusammenfassung
Sprache verändert sich im Laufe der Zeit, auch im Bereich der Hassrede, die sich schnell im Zuge sozialer Dynamiken und kultureller Verschiebungen weiterentwickelt. Während die NLP-Forschung die Auswirkungen der Sprachevolution auf das Modelltraining untersucht und mehrere Lösungsansätze dafür vorgeschlagen hat, bleibt deren Einfluss auf das Benchmarking von Modellen weitgehend unerforscht. Dennoch spielen Hassrede-Benchmarks eine entscheidende Rolle, um die Sicherheit von Modellen zu gewährleisten. In diesem Artikel evaluieren wir empirisch die Robustheit von 20 Sprachmodellen in zwei Experimenten zur sich entwickelnden Hassrede und zeigen die zeitliche Fehlausrichtung zwischen statischen und zeitabhängigen Bewertungen. Unsere Ergebnisse unterstreichen die Notwendigkeit von zeitabhängigen linguistischen Benchmarks, um Sprachmodelle im Bereich der Hassrede korrekt und zuverlässig bewerten zu können.
English
Language changes over time, including in the hate speech domain, which
evolves quickly following social dynamics and cultural shifts. While NLP
research has investigated the impact of language evolution on model training
and has proposed several solutions for it, its impact on model benchmarking
remains under-explored. Yet, hate speech benchmarks play a crucial role to
ensure model safety. In this paper, we empirically evaluate the robustness of
20 language models across two evolving hate speech experiments, and we show the
temporal misalignment between static and time-sensitive evaluations. Our
findings call for time-sensitive linguistic benchmarks in order to correctly
and reliably evaluate language models in the hate speech domain.