Hatevolution: Что не рассказывают статические бенчмарки

Аннотация

Язык изменяется с течением времени, включая сферу языка ненависти, которая быстро эволюционирует в соответствии с социальной динамикой и культурными сдвигами. Хотя исследования в области NLP изучали влияние языковой эволюции на обучение моделей и предложили несколько решений для этого, её влияние на тестирование моделей остаётся недостаточно изученным. Тем не менее, тестовые наборы данных для языка ненависти играют ключевую роль в обеспечении безопасности моделей. В данной работе мы эмпирически оцениваем устойчивость 20 языковых моделей в двух экспериментах с эволюционирующим языком ненависти и демонстрируем временное несоответствие между статичными и временно-чувствительными оценками. Наши результаты подчеркивают необходимость временно-чувствительных лингвистических тестовых наборов для корректной и надежной оценки языковых моделей в области языка ненависти.

English

Language changes over time, including in the hate speech domain, which evolves quickly following social dynamics and cultural shifts. While NLP research has investigated the impact of language evolution on model training and has proposed several solutions for it, its impact on model benchmarking remains under-explored. Yet, hate speech benchmarks play a crucial role to ensure model safety. In this paper, we empirically evaluate the robustness of 20 language models across two evolving hate speech experiments, and we show the temporal misalignment between static and time-sensitive evaluations. Our findings call for time-sensitive linguistic benchmarks in order to correctly and reliably evaluate language models in the hate speech domain.

Hatevolution: Что не рассказывают статические бенчмарки

Hatevolution: What Static Benchmarks Don't Tell Us

Аннотация

Support