ChatPaper.aiChatPaper

Hatevolution : Ce que les benchmarks statiques ne nous disent pas

Hatevolution: What Static Benchmarks Don't Tell Us

June 13, 2025
Auteurs: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI

Résumé

La langue évolue au fil du temps, y compris dans le domaine du discours haineux, qui se transforme rapidement en fonction des dynamiques sociales et des changements culturels. Bien que la recherche en traitement automatique du langage (TAL) ait étudié l'impact de l'évolution linguistique sur l'entraînement des modèles et ait proposé plusieurs solutions à cet égard, son influence sur l'évaluation des modèles reste peu explorée. Pourtant, les benchmarks de discours haineux jouent un rôle crucial pour garantir la sécurité des modèles. Dans cet article, nous évaluons empiriquement la robustesse de 20 modèles linguistiques à travers deux expériences évolutives sur le discours haineux, et nous mettons en évidence le décalage temporel entre les évaluations statiques et celles sensibles au temps. Nos résultats plaident en faveur de benchmarks linguistiques sensibles au temps afin d'évaluer correctement et de manière fiable les modèles linguistiques dans le domaine du discours haineux.
English
Language changes over time, including in the hate speech domain, which evolves quickly following social dynamics and cultural shifts. While NLP research has investigated the impact of language evolution on model training and has proposed several solutions for it, its impact on model benchmarking remains under-explored. Yet, hate speech benchmarks play a crucial role to ensure model safety. In this paper, we empirically evaluate the robustness of 20 language models across two evolving hate speech experiments, and we show the temporal misalignment between static and time-sensitive evaluations. Our findings call for time-sensitive linguistic benchmarks in order to correctly and reliably evaluate language models in the hate speech domain.
PDF02June 17, 2025