Évaluation de la robustesse des LLM dans les langues moins dotées à l'aide de modèles proxy
Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models
June 9, 2025
Auteurs: Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes dans diverses tâches de traitement du langage naturel (NLP) ces dernières années. Cependant, leur vulnérabilité aux contournements (jailbreaks) et aux perturbations nécessite des évaluations supplémentaires. Bien que de nombreux LLMs soient multilingues, les données d'entraînement liées à la sécurité proviennent principalement de langues à ressources élevées comme l'anglais. Cela peut les rendre vulnérables aux perturbations dans des langues à ressources limitées, telles que le polonais. Nous montrons comment des attaques étonnamment puissantes peuvent être créées à moindre coût en modifiant seulement quelques caractères et en utilisant un petit modèle proxy pour calculer l'importance des mots. Nous constatons que ces attaques au niveau des caractères et des mots modifient radicalement les prédictions de différents LLMs, suggérant une vulnérabilité potentielle pouvant être exploitée pour contourner leurs mécanismes de sécurité internes. Nous validons notre méthodologie de construction d'attaques sur le polonais, une langue à ressources limitées, et identifions des vulnérabilités potentielles des LLMs dans cette langue. De plus, nous montrons comment cette approche peut être étendue à d'autres langues. Nous mettons à disposition les jeux de données et le code créés pour des recherches ultérieures.
English
Large language models (LLMs) have demonstrated impressive capabilities across
various natural language processing (NLP) tasks in recent years. However, their
susceptibility to jailbreaks and perturbations necessitates additional
evaluations. Many LLMs are multilingual, but safety-related training data
contains mainly high-resource languages like English. This can leave them
vulnerable to perturbations in low-resource languages such as Polish. We show
how surprisingly strong attacks can be cheaply created by altering just a few
characters and using a small proxy model for word importance calculation. We
find that these character and word-level attacks drastically alter the
predictions of different LLMs, suggesting a potential vulnerability that can be
used to circumvent their internal safety mechanisms. We validate our attack
construction methodology on Polish, a low-resource language, and find potential
vulnerabilities of LLMs in this language. Additionally, we show how it can be
extended to other languages. We release the created datasets and code for
further research.