LLMs persi nella traduzione: M-ALERT scopre lacune di sicurezza cross-linguistiche
LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps
December 19, 2024
Autori: Felix Friedrich, Simone Tedeschi, Patrick Schramowski, Manuel Brack, Roberto Navigli, Huu Nguyen, Bo Li, Kristian Kersting
cs.AI
Abstract
Costruire Large Language Models (LLM) sicuri in diverse lingue è essenziale per garantire un accesso sicuro e una diversità linguistica. A questo scopo, presentiamo M-ALERT, un benchmark multilingue che valuta la sicurezza dei LLM in cinque lingue: inglese, francese, tedesco, italiano e spagnolo. M-ALERT include 15k prompt di alta qualità per lingua, per un totale di 75k, seguendo la dettagliata tassonomia ALERT. I nostri ampi esperimenti su 10 LLM all'avanguardia evidenziano l'importanza dell'analisi della sicurezza specifica per lingua, rivelando che i modelli spesso mostrano significative incongruenze nella sicurezza tra lingue e categorie. Ad esempio, Llama3.2 mostra un'elevata insicurezza nella categoria crime_tax per l'italiano ma rimane sicuro in altre lingue. Simili differenze possono essere osservate in tutti i modelli. Al contrario, alcune categorie, come substance_cannabis e crime_propaganda, attivano in modo coerente risposte non sicure tra i modelli e le lingue. Queste scoperte sottolineano la necessità di pratiche robuste di sicurezza multilingue nei LLM per garantire un utilizzo sicuro e responsabile tra diverse comunità utenti.
English
Building safe Large Language Models (LLMs) across multiple languages is
essential in ensuring both safe access and linguistic diversity. To this end,
we introduce M-ALERT, a multilingual benchmark that evaluates the safety of
LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT
includes 15k high-quality prompts per language, totaling 75k, following the
detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs
highlight the importance of language-specific safety analysis, revealing that
models often exhibit significant inconsistencies in safety across languages and
categories. For instance, Llama3.2 shows high unsafety in the category
crime_tax for Italian but remains safe in other languages. Similar differences
can be observed across all models. In contrast, certain categories, such as
substance_cannabis and crime_propaganda, consistently trigger unsafe responses
across models and languages. These findings underscore the need for robust
multilingual safety practices in LLMs to ensure safe and responsible usage
across diverse user communities.