Pourquoi les navires protégés s'échouent-ils ? Les mécanismes de sécurité des grands modèles de langage alignés ont tendance à être ancrés dans la région du modèle.
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region
February 19, 2025
Auteurs: Chak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li
cs.AI
Résumé
L'alignement sécuritaire des grands modèles de langage (LLMs) reste vulnérable, car leur comportement initial peut être facilement contourné par des attaques relativement simples. Étant donné que l'insertion d'un modèle fixe entre l'instruction d'entrée et la sortie initiale du modèle est une pratique courante pour les LLMs existants, nous émettons l'hypothèse que ce modèle est un facteur clé derrière leurs vulnérabilités : la prise de décision liée à la sécurité des LLMs repose excessivement sur les informations agrégées provenant de la région du modèle, ce qui influence largement le comportement sécuritaire de ces modèles. Nous qualifions ce problème d'alignement sécuritaire ancré au modèle. Dans cet article, nous menons des expériences approfondies et vérifions que l'alignement sécuritaire ancré au modèle est répandu parmi divers LLMs alignés. Nos analyses mécanistes démontrent comment cela conduit à la susceptibilité des modèles face aux attaques de contournement lors de l'inférence. De plus, nous montrons que le détachement des mécanismes de sécurité de la région du modèle est prometteur pour atténuer les vulnérabilités aux attaques de contournement. Nous encourageons les recherches futures à développer des techniques d'alignement sécuritaire plus robustes qui réduisent la dépendance à la région du modèle.
English
The safety alignment of large language models (LLMs) remains vulnerable, as
their initial behavior can be easily jailbroken by even relatively simple
attacks. Since infilling a fixed template between the input instruction and
initial model output is a common practice for existing LLMs, we hypothesize
that this template is a key factor behind their vulnerabilities: LLMs'
safety-related decision-making overly relies on the aggregated information from
the template region, which largely influences these models' safety behavior. We
refer to this issue as template-anchored safety alignment. In this paper, we
conduct extensive experiments and verify that template-anchored safety
alignment is widespread across various aligned LLMs. Our mechanistic analyses
demonstrate how it leads to models' susceptibility when encountering
inference-time jailbreak attacks. Furthermore, we show that detaching safety
mechanisms from the template region is promising in mitigating vulnerabilities
to jailbreak attacks. We encourage future research to develop more robust
safety alignment techniques that reduce reliance on the template region.Summary
AI-Generated Summary