ASGuard: Proteção por Escalonamento de Ativação para Mitigar Ataques Direcionados de Jailbreaking

Resumo

Os grandes modelos de linguagem (LLMs), apesar de alinhados para segurança, exibem comportamentos de recusa frágeis que podem ser contornados por simples alterações linguísticas. Como o *jailbreak* por tempo verbal demonstra - modelos que recusam pedidos nocivos frequentemente os atendem quando reformulados no passado - revela-se uma lacuna crítica de generalização nos métodos atuais de alinhamento, cujos mecanismos subjacentes são pouco compreendidos. Neste trabalho, introduzimos o *Activation-Scaling Guard* (ASGuard), uma estrutura perspicaz e mecanicamente informada que mitiga cirurgicamente essa vulnerabilidade específica. Na primeira etapa, usamos análise de circuitos para identificar os cabeçalhos de atenção específicos causalmente ligados ao *jailbreak* alvo, como um ataque de mudança de tempo verbal. Em segundo lugar, treinamos um vetor de escalonamento preciso, canal a canal, para recalibrar a ativação dos cabeçalhos vulneráveis ao tempo verbal. Por fim, aplicamo-lo numa "afinação preventiva", forçando o modelo a aprender um mecanismo de recusa mais robusto. Em quatro LLMs, o ASGuard reduz efetivamente a taxa de sucesso do ataque de *jailbreak* alvo, preservando capacidades gerais e minimizando a recusa excessiva, alcançando um equilíbrio Pareto-ótimo entre segurança e utilidade. Nossas descobertas ressaltam como sufixos adversários suprimem a propagação da direção mediadora da recusa, com base em análise mecanicista. Adicionalmente, nosso trabalho demonstra como uma compreensão profunda dos componentes internos do modelo pode ser aproveitada para desenvolver métodos práticos, eficientes e direcionados para ajustar o comportamento do modelo, traçando um rumo para uma segurança de IA mais confiável e interpretável.

English

Large language models (LLMs), despite being safety-aligned, exhibit brittle refusal behaviors that can be circumvented by simple linguistic changes. As tense jailbreaking demonstrates that models refusing harmful requests often comply when rephrased in past tense, a critical generalization gap is revealed in current alignment methods whose underlying mechanisms are poorly understood. In this work, we introduce Activation-Scaling Guard (ASGuard), an insightful, mechanistically-informed framework that surgically mitigates this specific vulnerability. In the first step, we use circuit analysis to identify the specific attention heads causally linked to the targeted jailbreaking such as a tense-changing attack. Second, we train a precise, channel-wise scaling vector to recalibrate the activation of tense vulnerable heads. Lastly, we apply it into a "preventative fine-tuning", forcing the model to learn a more robust refusal mechanism. Across four LLMs, ASGuard effectively reduces the attack success rate of targeted jailbreaking while preserving general capabilities and minimizing over refusal, achieving a Pareto-optimal balance between safety and utility. Our findings underscore how adversarial suffixes suppress the propagation of the refusal-mediating direction, based on mechanistic analysis. Furthermore, our work showcases how a deep understanding of model internals can be leveraged to develop practical, efficient, and targeted methods for adjusting model behavior, charting a course for more reliable and interpretable AI safety.

ASGuard: Proteção por Escalonamento de Ativação para Mitigar Ataques Direcionados de Jailbreaking

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Resumo

Support