Les LLMs perdus dans la traduction : M-ALERT révèle les lacunes de sécurité interlinguistiques
LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps
December 19, 2024
Auteurs: Felix Friedrich, Simone Tedeschi, Patrick Schramowski, Manuel Brack, Roberto Navigli, Huu Nguyen, Bo Li, Kristian Kersting
cs.AI
Résumé
La création de Large Language Models (LLMs) sûrs dans plusieurs langues est essentielle pour garantir à la fois un accès sécurisé et une diversité linguistique. À cette fin, nous présentons M-ALERT, un banc d'essai multilingue qui évalue la sécurité des LLMs dans cinq langues : anglais, français, allemand, italien et espagnol. M-ALERT comprend 15 000 exemples de haute qualité par langue, totalisant 75 000, suivant la taxonomie détaillée ALERT. Nos expériences approfondies sur 10 LLMs de pointe soulignent l'importance de l'analyse de sécurité spécifique à chaque langue, révélant que les modèles présentent souvent des incohérences significatives en matière de sécurité entre les langues et les catégories. Par exemple, Llama3.2 montre une unsécurité élevée dans la catégorie crime_tax pour l'italien mais reste sûr dans les autres langues. Des différences similaires peuvent être observées sur l'ensemble des modèles. En revanche, certaines catégories, telles que substance_cannabis et crime_propaganda, déclenchent systématiquement des réponses non sécurisées dans tous les modèles et langues. Ces résultats soulignent la nécessité de pratiques de sécurité multilingues robustes dans les LLMs pour garantir une utilisation sûre et responsable au sein de diverses communautés d'utilisateurs.
English
Building safe Large Language Models (LLMs) across multiple languages is
essential in ensuring both safe access and linguistic diversity. To this end,
we introduce M-ALERT, a multilingual benchmark that evaluates the safety of
LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT
includes 15k high-quality prompts per language, totaling 75k, following the
detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs
highlight the importance of language-specific safety analysis, revealing that
models often exhibit significant inconsistencies in safety across languages and
categories. For instance, Llama3.2 shows high unsafety in the category
crime_tax for Italian but remains safe in other languages. Similar differences
can be observed across all models. In contrast, certain categories, such as
substance_cannabis and crime_propaganda, consistently trigger unsafe responses
across models and languages. These findings underscore the need for robust
multilingual safety practices in LLMs to ensure safe and responsible usage
across diverse user communities.Summary
AI-Generated Summary