Perché le navi protette si arenano? I meccanismi di sicurezza dei modelli linguistici allineati tendono a essere ancorati nella regione del template.

Abstract

L'allineamento alla sicurezza dei grandi modelli linguistici (LLM) rimane vulnerabile, poiché il loro comportamento iniziale può essere facilmente compromesso anche da attacchi relativamente semplici. Poiché il riempimento di un template fisso tra l'istruzione di input e l'output iniziale del modello è una pratica comune per gli LLM esistenti, ipotizziamo che questo template sia un fattore chiave dietro le loro vulnerabilità: il processo decisionale relativo alla sicurezza degli LLM si basa eccessivamente sulle informazioni aggregate dalla regione del template, che influenza in larga misura il comportamento di sicurezza di questi modelli. Definiamo questo problema come allineamento alla sicurezza ancorato al template. In questo articolo, conduciamo esperimenti estesi e verifichiamo che l'allineamento alla sicurezza ancorato al template è diffuso tra vari LLM allineati. Le nostre analisi meccanicistiche dimostrano come ciò porti alla suscettibilità dei modelli quando incontrano attacchi di jailbreak durante l'inferenza. Inoltre, mostriamo che il distacco dei meccanismi di sicurezza dalla regione del template è promettente nel mitigare le vulnerabilità agli attacchi di jailbreak. Incoraggiamo la ricerca futura a sviluppare tecniche di allineamento alla sicurezza più robuste che riducano la dipendenza dalla regione del template.

English

The safety alignment of large language models (LLMs) remains vulnerable, as their initial behavior can be easily jailbroken by even relatively simple attacks. Since infilling a fixed template between the input instruction and initial model output is a common practice for existing LLMs, we hypothesize that this template is a key factor behind their vulnerabilities: LLMs' safety-related decision-making overly relies on the aggregated information from the template region, which largely influences these models' safety behavior. We refer to this issue as template-anchored safety alignment. In this paper, we conduct extensive experiments and verify that template-anchored safety alignment is widespread across various aligned LLMs. Our mechanistic analyses demonstrate how it leads to models' susceptibility when encountering inference-time jailbreak attacks. Furthermore, we show that detaching safety mechanisms from the template region is promising in mitigating vulnerabilities to jailbreak attacks. We encourage future research to develop more robust safety alignment techniques that reduce reliance on the template region.

Perché le navi protette si arenano? I meccanismi di sicurezza dei modelli linguistici allineati tendono a essere ancorati nella regione del template.

Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

Abstract

Support