Waarom beschermde schepen aan de grond lopen? Veiligheidsmechanismen van uitgelijnde grote taalmodellen hebben de neiging verankerd te zijn in het sjabloongebied.
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region
February 19, 2025
Auteurs: Chak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li
cs.AI
Samenvatting
De veiligheidsafstemming van grote taalmodellen (LLM's) blijft kwetsbaar, aangezien hun initiële gedrag eenvoudig kan worden omzeild door zelfs relatief eenvoudige aanvallen. Omdat het invullen van een vaste sjabloon tussen de invoerinstructie en de initiële modeluitvoer een gangbare praktijk is voor bestaande LLM's, stellen we de hypothese dat deze sjabloon een sleutelfactor is achter hun kwetsbaarheden: de veiligheidsgerichte besluitvorming van LLM's is te sterk afhankelijk van de geaggregeerde informatie uit het sjabloongebied, wat het veiligheidsgedrag van deze modellen sterk beïnvloedt. We verwijzen naar dit probleem als sjabloonverankerde veiligheidsafstemming. In dit artikel voeren we uitgebreide experimenten uit en bevestigen we dat sjabloonverankerde veiligheidsafstemming wijdverspreid is onder verschillende afgestemde LLM's. Onze mechanistische analyses tonen aan hoe dit leidt tot de vatbaarheid van modellen bij het tegenkomen van omzeilingsaanvallen tijdens de inferentie. Bovendien laten we zien dat het loskoppelen van veiligheidsmechanismen van het sjabloongebied veelbelovend is om de kwetsbaarheid voor omzeilingsaanvallen te verminderen. We moedigen toekomstig onderzoek aan om robuustere technieken voor veiligheidsafstemming te ontwikkelen die minder afhankelijk zijn van het sjabloongebied.
English
The safety alignment of large language models (LLMs) remains vulnerable, as
their initial behavior can be easily jailbroken by even relatively simple
attacks. Since infilling a fixed template between the input instruction and
initial model output is a common practice for existing LLMs, we hypothesize
that this template is a key factor behind their vulnerabilities: LLMs'
safety-related decision-making overly relies on the aggregated information from
the template region, which largely influences these models' safety behavior. We
refer to this issue as template-anchored safety alignment. In this paper, we
conduct extensive experiments and verify that template-anchored safety
alignment is widespread across various aligned LLMs. Our mechanistic analyses
demonstrate how it leads to models' susceptibility when encountering
inference-time jailbreak attacks. Furthermore, we show that detaching safety
mechanisms from the template region is promising in mitigating vulnerabilities
to jailbreak attacks. We encourage future research to develop more robust
safety alignment techniques that reduce reliance on the template region.Summary
AI-Generated Summary