LLMsの翻訳の誤り:M-ALERTがクロス言語セーフティギャップを明らかにする
LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps
December 19, 2024
著者: Felix Friedrich, Simone Tedeschi, Patrick Schramowski, Manuel Brack, Roberto Navigli, Huu Nguyen, Bo Li, Kristian Kersting
cs.AI
要旨
複数言語にわたる安全な大規模言語モデル(LLM)の構築は、安全なアクセスと言語の多様性の両方を確保する上で重要です。このため、私たちはM-ALERTを導入します。これは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語でLLMの安全性を評価する多言語ベンチマークです。M-ALERTには、各言語あたり15,000の高品質プロンプトが含まれ、詳細なALERTタクソノミーに従って合計75,000のプロンプトがあります。10の最先端LLMに関する私たちの包括的な実験は、言語固有の安全性分析の重要性を浮き彫りにし、モデルがしばしば言語やカテゴリにわたって安全性において著しい不一致を示すことを明らかにしました。例えば、Llama3.2はイタリア語のcrime_taxカテゴリで高い不安全性を示す一方、他の言語では安全です。同様の違いはすべてのモデルで見られます。一方、substance_cannabisやcrime_propagandaなどの特定のカテゴリは、モデルや言語を問わず一貫して安全でない応答を引き起こします。これらの調査結果は、多様なユーザーコミュニティにおける安全で責任ある使用を確保するために、LLMにおける堅牢な多言語安全性の実践の必要性を強調しています。
English
Building safe Large Language Models (LLMs) across multiple languages is
essential in ensuring both safe access and linguistic diversity. To this end,
we introduce M-ALERT, a multilingual benchmark that evaluates the safety of
LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT
includes 15k high-quality prompts per language, totaling 75k, following the
detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs
highlight the importance of language-specific safety analysis, revealing that
models often exhibit significant inconsistencies in safety across languages and
categories. For instance, Llama3.2 shows high unsafety in the category
crime_tax for Italian but remains safe in other languages. Similar differences
can be observed across all models. In contrast, certain categories, such as
substance_cannabis and crime_propaganda, consistently trigger unsafe responses
across models and languages. These findings underscore the need for robust
multilingual safety practices in LLMs to ensure safe and responsible usage
across diverse user communities.