ChatPaper.aiChatPaper

Hatevolution: Was statische Benchmarks uns nicht verraten

Hatevolution: What Static Benchmarks Don't Tell Us

June 13, 2025
Autoren: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI

Zusammenfassung

Sprache verändert sich im Laufe der Zeit, auch im Bereich der Hassrede, die sich schnell im Zuge sozialer Dynamiken und kultureller Verschiebungen weiterentwickelt. Während die NLP-Forschung die Auswirkungen der Sprachevolution auf das Modelltraining untersucht und mehrere Lösungsansätze dafür vorgeschlagen hat, bleibt deren Einfluss auf das Benchmarking von Modellen weitgehend unerforscht. Dennoch spielen Hassrede-Benchmarks eine entscheidende Rolle, um die Sicherheit von Modellen zu gewährleisten. In diesem Artikel evaluieren wir empirisch die Robustheit von 20 Sprachmodellen in zwei Experimenten zur sich entwickelnden Hassrede und zeigen die zeitliche Fehlausrichtung zwischen statischen und zeitabhängigen Bewertungen. Unsere Ergebnisse unterstreichen die Notwendigkeit von zeitabhängigen linguistischen Benchmarks, um Sprachmodelle im Bereich der Hassrede korrekt und zuverlässig bewerten zu können.
English
Language changes over time, including in the hate speech domain, which evolves quickly following social dynamics and cultural shifts. While NLP research has investigated the impact of language evolution on model training and has proposed several solutions for it, its impact on model benchmarking remains under-explored. Yet, hate speech benchmarks play a crucial role to ensure model safety. In this paper, we empirically evaluate the robustness of 20 language models across two evolving hate speech experiments, and we show the temporal misalignment between static and time-sensitive evaluations. Our findings call for time-sensitive linguistic benchmarks in order to correctly and reliably evaluate language models in the hate speech domain.
PDF02June 17, 2025