Hatevolution: Что не рассказывают статические бенчмарки
Hatevolution: What Static Benchmarks Don't Tell Us
June 13, 2025
Авторы: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI
Аннотация
Язык изменяется с течением времени, включая сферу языка ненависти, которая быстро эволюционирует в соответствии с социальной динамикой и культурными сдвигами. Хотя исследования в области NLP изучали влияние языковой эволюции на обучение моделей и предложили несколько решений для этого, её влияние на тестирование моделей остаётся недостаточно изученным. Тем не менее, тестовые наборы данных для языка ненависти играют ключевую роль в обеспечении безопасности моделей. В данной работе мы эмпирически оцениваем устойчивость 20 языковых моделей в двух экспериментах с эволюционирующим языком ненависти и демонстрируем временное несоответствие между статичными и временно-чувствительными оценками. Наши результаты подчеркивают необходимость временно-чувствительных лингвистических тестовых наборов для корректной и надежной оценки языковых моделей в области языка ненависти.
English
Language changes over time, including in the hate speech domain, which
evolves quickly following social dynamics and cultural shifts. While NLP
research has investigated the impact of language evolution on model training
and has proposed several solutions for it, its impact on model benchmarking
remains under-explored. Yet, hate speech benchmarks play a crucial role to
ensure model safety. In this paper, we empirically evaluate the robustness of
20 language models across two evolving hate speech experiments, and we show the
temporal misalignment between static and time-sensitive evaluations. Our
findings call for time-sensitive linguistic benchmarks in order to correctly
and reliably evaluate language models in the hate speech domain.