ChatPaper.aiChatPaper

Por que Navios Protegidos Encalham? Os Mecanismos de Segurança dos Grandes Modelos de Linguagem Alinhados Tendem a Estar Ancorados na Região do Template

Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

February 19, 2025
Autores: Chak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li
cs.AI

Resumo

O alinhamento de segurança de grandes modelos de linguagem (LLMs) permanece vulnerável, pois seu comportamento inicial pode ser facilmente comprometido por ataques relativamente simples. Como preencher um modelo fixo entre a instrução de entrada e a saída inicial do modelo é uma prática comum para os LLMs existentes, nossa hipótese é que esse modelo é um fator-chave por trás de suas vulnerabilidades: a tomada de decisões relacionadas à segurança dos LLMs depende excessivamente das informações agregadas da região do modelo, o que influencia significativamente o comportamento de segurança desses modelos. Referimo-nos a esse problema como alinhamento de segurança ancorado no modelo. Neste artigo, realizamos experimentos extensivos e verificamos que o alinhamento de segurança ancorado no modelo é generalizado em vários LLMs alinhados. Nossas análises mecanicistas demonstram como isso leva à suscetibilidade dos modelos ao encontrarem ataques de jailbreak durante a inferência. Além disso, mostramos que desvincular os mecanismos de segurança da região do modelo é promissor para mitigar vulnerabilidades a ataques de jailbreak. Incentivamos pesquisas futuras a desenvolver técnicas de alinhamento de segurança mais robustas que reduzam a dependência da região do modelo.
English
The safety alignment of large language models (LLMs) remains vulnerable, as their initial behavior can be easily jailbroken by even relatively simple attacks. Since infilling a fixed template between the input instruction and initial model output is a common practice for existing LLMs, we hypothesize that this template is a key factor behind their vulnerabilities: LLMs' safety-related decision-making overly relies on the aggregated information from the template region, which largely influences these models' safety behavior. We refer to this issue as template-anchored safety alignment. In this paper, we conduct extensive experiments and verify that template-anchored safety alignment is widespread across various aligned LLMs. Our mechanistic analyses demonstrate how it leads to models' susceptibility when encountering inference-time jailbreak attacks. Furthermore, we show that detaching safety mechanisms from the template region is promising in mitigating vulnerabilities to jailbreak attacks. We encourage future research to develop more robust safety alignment techniques that reduce reliance on the template region.

Summary

AI-Generated Summary

PDF102February 20, 2025