ChatPaper.aiChatPaper

Avaliando a Robustez de LLMs em Idiomas Menos Recursos com Modelos Proxy

Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models

June 9, 2025
Autores: Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades impressionantes em várias tarefas de processamento de linguagem natural (PLN) nos últimos anos. No entanto, sua suscetibilidade a jailbreaks e perturbações exige avaliações adicionais. Muitos LLMs são multilíngues, mas os dados de treinamento relacionados à segurança contêm principalmente idiomas de alta disponibilidade, como o inglês. Isso pode deixá-los vulneráveis a perturbações em idiomas de baixa disponibilidade, como o polonês. Mostramos como ataques surpreendentemente fortes podem ser criados de forma barata alterando apenas alguns caracteres e usando um pequeno modelo proxy para calcular a importância das palavras. Descobrimos que esses ataques em nível de caracteres e palavras alteram drasticamente as previsões de diferentes LLMs, sugerindo uma vulnerabilidade potencial que pode ser usada para contornar seus mecanismos internos de segurança. Validamos nossa metodologia de construção de ataques no polonês, um idioma de baixa disponibilidade, e encontramos vulnerabilidades potenciais dos LLMs nesse idioma. Além disso, mostramos como ela pode ser estendida a outros idiomas. Disponibilizamos os conjuntos de dados e o código criados para pesquisas futuras.
English
Large language models (LLMs) have demonstrated impressive capabilities across various natural language processing (NLP) tasks in recent years. However, their susceptibility to jailbreaks and perturbations necessitates additional evaluations. Many LLMs are multilingual, but safety-related training data contains mainly high-resource languages like English. This can leave them vulnerable to perturbations in low-resource languages such as Polish. We show how surprisingly strong attacks can be cheaply created by altering just a few characters and using a small proxy model for word importance calculation. We find that these character and word-level attacks drastically alter the predictions of different LLMs, suggesting a potential vulnerability that can be used to circumvent their internal safety mechanisms. We validate our attack construction methodology on Polish, a low-resource language, and find potential vulnerabilities of LLMs in this language. Additionally, we show how it can be extended to other languages. We release the created datasets and code for further research.
PDF22June 10, 2025