Hatevolution: Lo que los puntos de referencia estáticos no nos dicen
Hatevolution: What Static Benchmarks Don't Tell Us
June 13, 2025
Autores: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI
Resumen
El lenguaje evoluciona con el tiempo, incluso en el ámbito del discurso de odio, que cambia rápidamente siguiendo dinámicas sociales y transformaciones culturales. Si bien la investigación en PLN ha estudiado el impacto de la evolución del lenguaje en el entrenamiento de modelos y ha propuesto varias soluciones al respecto, su impacto en la evaluación comparativa de modelos sigue siendo poco explorado. Sin embargo, los puntos de referencia en discurso de odio desempeñan un papel crucial para garantizar la seguridad de los modelos. En este artículo, evaluamos empíricamente la robustez de 20 modelos de lenguaje en dos experimentos de discurso de odio en evolución, y demostramos la desalineación temporal entre evaluaciones estáticas y sensibles al tiempo. Nuestros hallazgos abogan por puntos de referencia lingüísticos sensibles al tiempo para evaluar correcta y confiablemente los modelos de lenguaje en el ámbito del discurso de odio.
English
Language changes over time, including in the hate speech domain, which
evolves quickly following social dynamics and cultural shifts. While NLP
research has investigated the impact of language evolution on model training
and has proposed several solutions for it, its impact on model benchmarking
remains under-explored. Yet, hate speech benchmarks play a crucial role to
ensure model safety. In this paper, we empirically evaluate the robustness of
20 language models across two evolving hate speech experiments, and we show the
temporal misalignment between static and time-sensitive evaluations. Our
findings call for time-sensitive linguistic benchmarks in order to correctly
and reliably evaluate language models in the hate speech domain.