LLM's Verdwaald in Vertaling: M-ALERT onthult Cross-Linguïstische Veiligheidslekken
LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps
December 19, 2024
Auteurs: Felix Friedrich, Simone Tedeschi, Patrick Schramowski, Manuel Brack, Roberto Navigli, Huu Nguyen, Bo Li, Kristian Kersting
cs.AI
Samenvatting
Het bouwen van veilige Grote Taalmodellen (LLM's) in meerdere talen is essentieel om zowel veilige toegang als taalkundige diversiteit te waarborgen. Met dit doel introduceren we M-ALERT, een meertalige benchmark die de veiligheid van LLM's evalueert in vijf talen: Engels, Frans, Duits, Italiaans en Spaans. M-ALERT bevat 15k hoogwaardige prompts per taal, in totaal 75k, volgens de gedetailleerde ALERT taxonomie. Onze uitgebreide experimenten met 10 toonaangevende LLM's benadrukken het belang van taalspecifieke veiligheidsanalyse, waarbij blijkt dat modellen vaak aanzienlijke inconsistenties vertonen in veiligheid over talen en categorieën. Zo vertoont Llama3.2 bijvoorbeeld hoge onveiligheid in de categorie crime_tax voor Italiaans, maar blijft veilig in andere talen. Vergelijkbare verschillen zijn waarneembaar bij alle modellen. Daarentegen activeren bepaalde categorieën, zoals substance_cannabis en crime_propaganda, consequent onveilige reacties over modellen en talen heen. Deze bevindingen benadrukken de noodzaak van robuuste meertalige veiligheidspraktijken in LLM's om veilig en verantwoord gebruik te waarborgen binnen diverse gebruikersgemeenschappen.
English
Building safe Large Language Models (LLMs) across multiple languages is
essential in ensuring both safe access and linguistic diversity. To this end,
we introduce M-ALERT, a multilingual benchmark that evaluates the safety of
LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT
includes 15k high-quality prompts per language, totaling 75k, following the
detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs
highlight the importance of language-specific safety analysis, revealing that
models often exhibit significant inconsistencies in safety across languages and
categories. For instance, Llama3.2 shows high unsafety in the category
crime_tax for Italian but remains safe in other languages. Similar differences
can be observed across all models. In contrast, certain categories, such as
substance_cannabis and crime_propaganda, consistently trigger unsafe responses
across models and languages. These findings underscore the need for robust
multilingual safety practices in LLMs to ensure safe and responsible usage
across diverse user communities.