Warum geschützte Schiffe auf Grund laufen: Die Sicherheitsmechanismen ausgerichteter großer Sprachmodelle neigen dazu, in der Vorlagenregion verankert zu sein
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region
February 19, 2025
Autoren: Chak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li
cs.AI
Zusammenfassung
Die Sicherheitsausrichtung großer Sprachmodelle (LLMs) bleibt anfällig, da ihr anfängliches Verhalten selbst durch relativ einfache Angriffe leicht umgangen werden kann. Da das Einfügen einer festen Vorlage zwischen der Eingabeanweisung und der anfänglichen Modellausgabe eine gängige Praxis bei bestehenden LLMs ist, stellen wir die Hypothese auf, dass diese Vorlage ein Schlüsselfaktor für ihre Anfälligkeiten ist: Die sicherheitsbezogene Entscheidungsfindung von LLMs stützt sich übermäßig auf die aggregierten Informationen aus dem Vorlagenbereich, was das Sicherheitsverhalten dieser Modelle maßgeblich beeinflusst. Wir bezeichnen dieses Problem als vorlagenverankerte Sicherheitsausrichtung. In diesem Artikel führen wir umfangreiche Experimente durch und bestätigen, dass vorlagenverankerte Sicherheitsausrichtung bei verschiedenen ausgerichteten LLMs weit verbreitet ist. Unsere mechanistischen Analysen zeigen, wie dies die Anfälligkeit der Modelle bei Inferenzzeit-Angriffen zur Umgehung der Sicherheitsmechanismen verursacht. Darüber hinaus zeigen wir, dass die Trennung der Sicherheitsmechanismen vom Vorlagenbereich vielversprechend ist, um die Anfälligkeit für solche Angriffe zu verringern. Wir ermutigen zukünftige Forschungen, robustere Sicherheitsausrichtungstechniken zu entwickeln, die die Abhängigkeit vom Vorlagenbereich reduzieren.
English
The safety alignment of large language models (LLMs) remains vulnerable, as
their initial behavior can be easily jailbroken by even relatively simple
attacks. Since infilling a fixed template between the input instruction and
initial model output is a common practice for existing LLMs, we hypothesize
that this template is a key factor behind their vulnerabilities: LLMs'
safety-related decision-making overly relies on the aggregated information from
the template region, which largely influences these models' safety behavior. We
refer to this issue as template-anchored safety alignment. In this paper, we
conduct extensive experiments and verify that template-anchored safety
alignment is widespread across various aligned LLMs. Our mechanistic analyses
demonstrate how it leads to models' susceptibility when encountering
inference-time jailbreak attacks. Furthermore, we show that detaching safety
mechanisms from the template region is promising in mitigating vulnerabilities
to jailbreak attacks. We encourage future research to develop more robust
safety alignment techniques that reduce reliance on the template region.Summary
AI-Generated Summary