LASA: Allineamento Semantico Indipendente dalla Lingua al Collo di Bottiglia Semantico per la Sicurezza degli LLM

Abstract

I grandi modelli linguistici (LLM) dimostrano spesso solide prestazioni in termini di sicurezza nelle lingue ad alte risorse, ma presentano gravi vulnerabilità quando vengono interrogati in lingue a basse risorse. Attribuiamo questo divario a una discrepanza tra la capacità di comprensione semantica, che è agnostica rispetto alla lingua, e l'allineamento di sicurezza, che è dominato dalla lingua ed è polarizzato verso le lingue ad alte risorse. Coerentemente con questa ipotesi, identifichiamo empiricamente il collo di bottiglia semantico negli LLM, uno strato intermedio in cui la geometria delle rappresentazioni del modello è governata principalmente dal contenuto semantico condiviso piuttosto che dall'identità linguistica. Basandoci su questa osservazione, proponiamo l'Allineamento Semantico Agnóstico rispetto alla Lingua (LASA), che ancora l'allineamento di sicurezza direttamente nei colli di bottiglia semantici. Gli esperimenti mostrano che LASA migliora sostanzialmente la sicurezza in tutte le lingue: il tasso medio di successo degli attacchi (ASR) scende dal 24,7% al 2,8% su LLaMA-3.1-8B-Instruct e si mantiene intorno al 3-4% attraverso i modelli Qwen2.5 e Qwen3 Instruct (7B-32B). Insieme, la nostra analisi e il nostro metodo offrono una prospettiva a livello di rappresentazione sulla sicurezza degli LLM, suggerendo che l'allineamento di sicurezza richiede di ancorare la comprensione della sicurezza non nel testo superficiale, ma nello spazio semantico del modello, che è agnostico rispetto alla lingua.

English

Large language models (LLMs) often demonstrate strong safety performance in high-resource languages, yet exhibit severe vulnerabilities when queried in low-resource languages. We attribute this gap to a mismatch between language-agnostic semantic understanding ability and language-dominant safety alignment biased toward high-resource languages. Consistent with this hypothesis, we empirically identify the semantic bottleneck in LLMs, an intermediate layer in which the geometry of model representations is governed primarily by shared semantic content rather than language identity. Building on this observation, we propose Language-Agnostic Semantic Alignment (LASA), which anchors safety alignment directly in semantic bottlenecks. Experiments show that LASA substantially improves safety across all languages: average attack success rate (ASR) drops from 24.7% to 2.8% on LLaMA-3.1-8B-Instruct and remains around 3-4% across Qwen2.5 and Qwen3 Instruct models (7B-32B). Together, our analysis and method offer a representation-level perspective on LLM safety, suggesting that safety alignment requires anchoring safety understanding not in surface text, but in the model's language-agnostic semantic space.

LASA: Allineamento Semantico Indipendente dalla Lingua al Collo di Bottiglia Semantico per la Sicurezza degli LLM

LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety

Abstract

Support