LASA: Alineación Semántica Independiente del Idioma en el Cuello de Botella Semántico para la Seguridad de los LLM

Resumen

Los grandes modelos de lenguaje (LLMs) suelen demostrar un sólido desempeño en seguridad en idiomas de altos recursos, pero exhiben graves vulnerabilidades cuando se les consulta en idiomas de bajos recursos. Atribuimos esta brecha a un desajuste entre la capacidad de comprensión semántica (agnóstica al idioma) y la alineación de seguridad (dominada por el idioma) sesgada hacia lenguajes de altos recursos. En consonancia con esta hipótesis, identificamos empíricamente el cuello de botella semántico en los LLMs: una capa intermedia en la que la geometría de las representaciones del modelo está gobernada principalmente por el contenido semántico compartido, más que por la identidad del idioma. Basándonos en esta observación, proponemos la Alineación Semántica Agnóstica al Idioma (LASA), que ancla la alineación de seguridad directamente en los cuellos de botella semánticos. Los experimentos muestran que LASA mejora sustancialmente la seguridad en todos los idiomas: la tasa promedio de éxito de ataques (ASR) disminuye del 24.7% al 2.8% en LLaMA-3.1-8B-Instruct y se mantiene alrededor del 3-4% en los modelos Qwen2.5 y Qwen3 Instruct (7B-32B). En conjunto, nuestro análisis y método ofrecen una perspectiva a nivel de representación sobre la seguridad de los LLMs, sugiriendo que la alineación de seguridad requiere anclar la comprensión de la seguridad no en el texto superficial, sino en el espacio semántico agnóstico al idioma del modelo.

English

Large language models (LLMs) often demonstrate strong safety performance in high-resource languages, yet exhibit severe vulnerabilities when queried in low-resource languages. We attribute this gap to a mismatch between language-agnostic semantic understanding ability and language-dominant safety alignment biased toward high-resource languages. Consistent with this hypothesis, we empirically identify the semantic bottleneck in LLMs, an intermediate layer in which the geometry of model representations is governed primarily by shared semantic content rather than language identity. Building on this observation, we propose Language-Agnostic Semantic Alignment (LASA), which anchors safety alignment directly in semantic bottlenecks. Experiments show that LASA substantially improves safety across all languages: average attack success rate (ASR) drops from 24.7% to 2.8% on LLaMA-3.1-8B-Instruct and remains around 3-4% across Qwen2.5 and Qwen3 Instruct models (7B-32B). Together, our analysis and method offer a representation-level perspective on LLM safety, suggesting that safety alignment requires anchoring safety understanding not in surface text, but in the model's language-agnostic semantic space.

LASA: Alineación Semántica Independiente del Idioma en el Cuello de Botella Semántico para la Seguridad de los LLM

LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety

Resumen

Support