Hatevolution: Cosa non ci dicono i benchmark statici
Hatevolution: What Static Benchmarks Don't Tell Us
June 13, 2025
Autori: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI
Abstract
Il linguaggio evolve nel tempo, anche nel dominio dell'hate speech, che si trasforma rapidamente seguendo le dinamiche sociali e i cambiamenti culturali. Sebbene la ricerca nel campo dell'NLP abbia indagato l'impatto dell'evoluzione del linguaggio sull'addestramento dei modelli e abbia proposto diverse soluzioni, il suo effetto sul benchmarking dei modelli rimane poco esplorato. Tuttavia, i benchmark sull'hate speech svolgono un ruolo cruciale per garantire la sicurezza dei modelli. In questo articolo, valutiamo empiricamente la robustezza di 20 modelli linguistici attraverso due esperimenti sull'hate speech in evoluzione, dimostrando il disallineamento temporale tra valutazioni statiche e sensibili al tempo. I nostri risultati evidenziano la necessità di benchmark linguistici sensibili al tempo per valutare correttamente e in modo affidabile i modelli linguistici nel dominio dell'hate speech.
English
Language changes over time, including in the hate speech domain, which
evolves quickly following social dynamics and cultural shifts. While NLP
research has investigated the impact of language evolution on model training
and has proposed several solutions for it, its impact on model benchmarking
remains under-explored. Yet, hate speech benchmarks play a crucial role to
ensure model safety. In this paper, we empirically evaluate the robustness of
20 language models across two evolving hate speech experiments, and we show the
temporal misalignment between static and time-sensitive evaluations. Our
findings call for time-sensitive linguistic benchmarks in order to correctly
and reliably evaluate language models in the hate speech domain.