Valutazione della Robustezza dei Modelli Linguistici di Grandi Dimensioni nelle Lingue Meno Dotate di Risorse Utilizzando Modelli Proxy
Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models
June 9, 2025
Autori: Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità impressionanti in vari compiti di elaborazione del linguaggio naturale (NLP) negli ultimi anni. Tuttavia, la loro suscettibilità a jailbreak e perturbazioni richiede valutazioni aggiuntive. Molti LLM sono multilingue, ma i dati di addestramento relativi alla sicurezza contengono principalmente lingue ad alto livello di risorse come l'inglese. Ciò può renderli vulnerabili a perturbazioni in lingue a basso livello di risorse come il polacco. Mostriamo come attacchi sorprendentemente forti possano essere creati a basso costo alterando solo pochi caratteri e utilizzando un piccolo modello proxy per il calcolo dell'importanza delle parole. Scopriamo che questi attacchi a livello di carattere e parola alterano drasticamente le previsioni di diversi LLM, suggerendo una potenziale vulnerabilità che può essere sfruttata per aggirare i loro meccanismi di sicurezza interni. Convalidiamo la nostra metodologia di costruzione degli attacchi sul polacco, una lingua a basso livello di risorse, e individuiamo potenziali vulnerabilità degli LLM in questa lingua. Inoltre, mostriamo come possa essere estesa ad altre lingue. Rilasciamo i dataset e il codice creati per ulteriori ricerche.
English
Large language models (LLMs) have demonstrated impressive capabilities across
various natural language processing (NLP) tasks in recent years. However, their
susceptibility to jailbreaks and perturbations necessitates additional
evaluations. Many LLMs are multilingual, but safety-related training data
contains mainly high-resource languages like English. This can leave them
vulnerable to perturbations in low-resource languages such as Polish. We show
how surprisingly strong attacks can be cheaply created by altering just a few
characters and using a small proxy model for word importance calculation. We
find that these character and word-level attacks drastically alter the
predictions of different LLMs, suggesting a potential vulnerability that can be
used to circumvent their internal safety mechanisms. We validate our attack
construction methodology on Polish, a low-resource language, and find potential
vulnerabilities of LLMs in this language. Additionally, we show how it can be
extended to other languages. We release the created datasets and code for
further research.