Bewertung der Robustheit von LLMs in weniger ressourcenstarken Sprachen mit Proxy-Modellen

papers.abstract

Große Sprachmodelle (LLMs) haben in den letzten Jahren beeindruckende Fähigkeiten in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) gezeigt. Ihre Anfälligkeit für Jailbreaks und Störungen erfordert jedoch zusätzliche Evaluierungen. Viele LLMs sind mehrsprachig, aber die sicherheitsbezogenen Trainingsdaten enthalten hauptsächlich Hochressourcensprachen wie Englisch. Dies kann sie anfällig für Störungen in Niedrigressourcensprachen wie Polnisch machen. Wir zeigen, wie überraschend starke Angriffe kostengünstig erstellt werden können, indem nur wenige Zeichen verändert und ein kleines Proxy-Modell zur Berechnung der Wortbedeutung verwendet wird. Wir stellen fest, dass diese Zeichen- und Wortebenenangriffe die Vorhersagen verschiedener LLMs drastisch verändern, was auf eine potenzielle Schwachstelle hinweist, die genutzt werden kann, um ihre internen Sicherheitsmechanismen zu umgehen. Wir validieren unsere Angriffskonstruktionsmethodik anhand von Polnisch, einer Niedrigressourcensprache, und finden potenzielle Schwachstellen von LLMs in dieser Sprache. Darüber hinaus zeigen wir, wie sie auf andere Sprachen erweitert werden kann. Wir veröffentlichen die erstellten Datensätze und den Code für weitere Forschungen.

English

Large language models (LLMs) have demonstrated impressive capabilities across various natural language processing (NLP) tasks in recent years. However, their susceptibility to jailbreaks and perturbations necessitates additional evaluations. Many LLMs are multilingual, but safety-related training data contains mainly high-resource languages like English. This can leave them vulnerable to perturbations in low-resource languages such as Polish. We show how surprisingly strong attacks can be cheaply created by altering just a few characters and using a small proxy model for word importance calculation. We find that these character and word-level attacks drastically alter the predictions of different LLMs, suggesting a potential vulnerability that can be used to circumvent their internal safety mechanisms. We validate our attack construction methodology on Polish, a low-resource language, and find potential vulnerabilities of LLMs in this language. Additionally, we show how it can be extended to other languages. We release the created datasets and code for further research.

Bewertung der Robustheit von LLMs in weniger ressourcenstarken Sprachen mit Proxy-Modellen

Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models

papers.abstract

Support