Bewertung der Robustheit von LLMs in weniger ressourcenstarken Sprachen mit Proxy-Modellen
Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models
June 9, 2025
Autoren: Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben in den letzten Jahren beeindruckende Fähigkeiten in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) gezeigt. Ihre Anfälligkeit für Jailbreaks und Störungen erfordert jedoch zusätzliche Evaluierungen. Viele LLMs sind mehrsprachig, aber die sicherheitsbezogenen Trainingsdaten enthalten hauptsächlich Hochressourcensprachen wie Englisch. Dies kann sie anfällig für Störungen in Niedrigressourcensprachen wie Polnisch machen. Wir zeigen, wie überraschend starke Angriffe kostengünstig erstellt werden können, indem nur wenige Zeichen verändert und ein kleines Proxy-Modell zur Berechnung der Wortbedeutung verwendet wird. Wir stellen fest, dass diese Zeichen- und Wortebenenangriffe die Vorhersagen verschiedener LLMs drastisch verändern, was auf eine potenzielle Schwachstelle hinweist, die genutzt werden kann, um ihre internen Sicherheitsmechanismen zu umgehen. Wir validieren unsere Angriffskonstruktionsmethodik anhand von Polnisch, einer Niedrigressourcensprache, und finden potenzielle Schwachstellen von LLMs in dieser Sprache. Darüber hinaus zeigen wir, wie sie auf andere Sprachen erweitert werden kann. Wir veröffentlichen die erstellten Datensätze und den Code für weitere Forschungen.
English
Large language models (LLMs) have demonstrated impressive capabilities across
various natural language processing (NLP) tasks in recent years. However, their
susceptibility to jailbreaks and perturbations necessitates additional
evaluations. Many LLMs are multilingual, but safety-related training data
contains mainly high-resource languages like English. This can leave them
vulnerable to perturbations in low-resource languages such as Polish. We show
how surprisingly strong attacks can be cheaply created by altering just a few
characters and using a small proxy model for word importance calculation. We
find that these character and word-level attacks drastically alter the
predictions of different LLMs, suggesting a potential vulnerability that can be
used to circumvent their internal safety mechanisms. We validate our attack
construction methodology on Polish, a low-resource language, and find potential
vulnerabilities of LLMs in this language. Additionally, we show how it can be
extended to other languages. We release the created datasets and code for
further research.