ChatPaper.aiChatPaper

Het evalueren van de robuustheid van LLM's in minder ondersteunde talen met behulp van proxymodellen

Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models

June 9, 2025
Auteurs: Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
cs.AI

Samenvatting

Grote taalmmodellen (LLMs) hebben de afgelopen jaren indrukwekkende prestaties laten zien op verschillende taken binnen natuurlijke taalverwerking (NLP). Hun gevoeligheid voor jailbreaks en verstoringen maakt echter aanvullende evaluaties noodzakelijk. Veel LLMs zijn meertalig, maar de trainingsgegevens die betrekking hebben op veiligheid bevatten voornamelijk hoog-resourcetalen zoals Engels. Hierdoor kunnen ze kwetsbaar zijn voor verstoringen in laag-resourcetalen zoals Pools. We laten zien hoe verrassend sterke aanvallen goedkoop kunnen worden gecreëerd door slechts enkele tekens aan te passen en een klein proxy-model te gebruiken voor het berekenen van woordbelang. We constateren dat deze aanvallen op tekens- en woordniveau de voorspellingen van verschillende LLMs drastisch veranderen, wat wijst op een potentiële kwetsbaarheid die kan worden gebruikt om hun interne veiligheidsmechanismen te omzeilen. We valideren onze methode voor het construeren van aanvallen op Pools, een laag-resourcetaal, en vinden potentiële kwetsbaarheden van LLMs in deze taal. Daarnaast laten we zien hoe deze methode kan worden uitgebreid naar andere talen. We maken de gecreëerde datasets en code beschikbaar voor verder onderzoek.
English
Large language models (LLMs) have demonstrated impressive capabilities across various natural language processing (NLP) tasks in recent years. However, their susceptibility to jailbreaks and perturbations necessitates additional evaluations. Many LLMs are multilingual, but safety-related training data contains mainly high-resource languages like English. This can leave them vulnerable to perturbations in low-resource languages such as Polish. We show how surprisingly strong attacks can be cheaply created by altering just a few characters and using a small proxy model for word importance calculation. We find that these character and word-level attacks drastically alter the predictions of different LLMs, suggesting a potential vulnerability that can be used to circumvent their internal safety mechanisms. We validate our attack construction methodology on Polish, a low-resource language, and find potential vulnerabilities of LLMs in this language. Additionally, we show how it can be extended to other languages. We release the created datasets and code for further research.
PDF22June 10, 2025