LLM's Verdwaald in Vertaling: M-ALERT onthult Cross-Linguïstische Veiligheidslekken

Samenvatting

Het bouwen van veilige Grote Taalmodellen (LLM's) in meerdere talen is essentieel om zowel veilige toegang als taalkundige diversiteit te waarborgen. Met dit doel introduceren we M-ALERT, een meertalige benchmark die de veiligheid van LLM's evalueert in vijf talen: Engels, Frans, Duits, Italiaans en Spaans. M-ALERT bevat 15k hoogwaardige prompts per taal, in totaal 75k, volgens de gedetailleerde ALERT taxonomie. Onze uitgebreide experimenten met 10 toonaangevende LLM's benadrukken het belang van taalspecifieke veiligheidsanalyse, waarbij blijkt dat modellen vaak aanzienlijke inconsistenties vertonen in veiligheid over talen en categorieën. Zo vertoont Llama3.2 bijvoorbeeld hoge onveiligheid in de categorie crime_tax voor Italiaans, maar blijft veilig in andere talen. Vergelijkbare verschillen zijn waarneembaar bij alle modellen. Daarentegen activeren bepaalde categorieën, zoals substance_cannabis en crime_propaganda, consequent onveilige reacties over modellen en talen heen. Deze bevindingen benadrukken de noodzaak van robuuste meertalige veiligheidspraktijken in LLM's om veilig en verantwoord gebruik te waarborgen binnen diverse gebruikersgemeenschappen.

English

Building safe Large Language Models (LLMs) across multiple languages is essential in ensuring both safe access and linguistic diversity. To this end, we introduce M-ALERT, a multilingual benchmark that evaluates the safety of LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT includes 15k high-quality prompts per language, totaling 75k, following the detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs highlight the importance of language-specific safety analysis, revealing that models often exhibit significant inconsistencies in safety across languages and categories. For instance, Llama3.2 shows high unsafety in the category crime_tax for Italian but remains safe in other languages. Similar differences can be observed across all models. In contrast, certain categories, such as substance_cannabis and crime_propaganda, consistently trigger unsafe responses across models and languages. These findings underscore the need for robust multilingual safety practices in LLMs to ensure safe and responsible usage across diverse user communities.

LLM's Verdwaald in Vertaling: M-ALERT onthult Cross-Linguïstische Veiligheidslekken

LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps

Samenvatting

Support