Evaluación de la Robustez de los Modelos de Lenguaje de Gran Escala en Lenguas Menos Recurridas mediante Modelos Proxy
Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models
June 9, 2025
Autores: Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en diversas tareas de procesamiento del lenguaje natural (PLN) en los últimos años. Sin embargo, su susceptibilidad a jailbreaks y perturbaciones requiere evaluaciones adicionales. Muchos LLMs son multilingües, pero los datos de entrenamiento relacionados con la seguridad contienen principalmente lenguajes de alto recurso como el inglés. Esto puede dejarlos vulnerables a perturbaciones en lenguajes de bajo recurso, como el polaco. Mostramos cómo se pueden crear ataques sorprendentemente fuertes de manera económica alterando solo unos pocos caracteres y utilizando un modelo proxy pequeño para calcular la importancia de las palabras. Descubrimos que estos ataques a nivel de caracteres y palabras alteran drásticamente las predicciones de diferentes LLMs, lo que sugiere una vulnerabilidad potencial que puede ser utilizada para eludir sus mecanismos internos de seguridad. Validamos nuestra metodología de construcción de ataques en polaco, un lenguaje de bajo recurso, y encontramos vulnerabilidades potenciales de los LLMs en este idioma. Además, mostramos cómo puede extenderse a otros idiomas. Publicamos los conjuntos de datos y el código creados para futuras investigaciones.
English
Large language models (LLMs) have demonstrated impressive capabilities across
various natural language processing (NLP) tasks in recent years. However, their
susceptibility to jailbreaks and perturbations necessitates additional
evaluations. Many LLMs are multilingual, but safety-related training data
contains mainly high-resource languages like English. This can leave them
vulnerable to perturbations in low-resource languages such as Polish. We show
how surprisingly strong attacks can be cheaply created by altering just a few
characters and using a small proxy model for word importance calculation. We
find that these character and word-level attacks drastically alter the
predictions of different LLMs, suggesting a potential vulnerability that can be
used to circumvent their internal safety mechanisms. We validate our attack
construction methodology on Polish, a low-resource language, and find potential
vulnerabilities of LLMs in this language. Additionally, we show how it can be
extended to other languages. We release the created datasets and code for
further research.