Оценка устойчивости языковых моделей в условиях ограниченных ресурсов для языков с использованием прокси-моделей
Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models
June 9, 2025
Авторы: Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
cs.AI
Аннотация
Крупные языковые модели (LLM) в последние годы продемонстрировали впечатляющие возможности в различных задачах обработки естественного языка (NLP). Однако их уязвимость к взлому и возмущениям требует проведения дополнительных оценок. Многие LLM являются многоязычными, но данные для обучения, связанные с безопасностью, в основном содержат высокоресурсные языки, такие как английский. Это может оставлять их уязвимыми к возмущениям в низкоресурсных языках, таких как польский. Мы показываем, как удивительно мощные атаки могут быть дешево созданы путем изменения всего нескольких символов и использования небольшой прокси-модели для расчета важности слов. Мы обнаруживаем, что эти атаки на уровне символов и слов значительно изменяют предсказания различных LLM, что указывает на потенциальную уязвимость, которую можно использовать для обхода их внутренних механизмов безопасности. Мы проверяем нашу методологию построения атак на польском языке, низкоресурсном языке, и находим потенциальные уязвимости LLM в этом языке. Кроме того, мы показываем, как её можно расширить на другие языки. Мы публикуем созданные наборы данных и код для дальнейших исследований.
English
Large language models (LLMs) have demonstrated impressive capabilities across
various natural language processing (NLP) tasks in recent years. However, their
susceptibility to jailbreaks and perturbations necessitates additional
evaluations. Many LLMs are multilingual, but safety-related training data
contains mainly high-resource languages like English. This can leave them
vulnerable to perturbations in low-resource languages such as Polish. We show
how surprisingly strong attacks can be cheaply created by altering just a few
characters and using a small proxy model for word importance calculation. We
find that these character and word-level attacks drastically alter the
predictions of different LLMs, suggesting a potential vulnerability that can be
used to circumvent their internal safety mechanisms. We validate our attack
construction methodology on Polish, a low-resource language, and find potential
vulnerabilities of LLMs in this language. Additionally, we show how it can be
extended to other languages. We release the created datasets and code for
further research.