ASGuard: Guardia de Escalado de Activación para Mitigar Ataques Dirigidos de Jailbreaking

Resumen

Los grandes modelos de lenguaje (LLMs), a pesar de estar alineados para la seguridad, exhiben comportamientos de rechazo frágiles que pueden ser eludidos mediante simples cambios lingüísticos. Dado que el "jailbreaking" por tiempo verbal demuestra que los modelos que rechazan solicitudes dañinas a menudo las cumplen cuando se reformulan en tiempo pasado, se revela una brecha de generalización crítica en los métodos de alineación actuales, cuyos mecanismos subyacentes son poco comprendidos. En este trabajo, presentamos Activation-Scaling Guard (ASGuard), un marco de trabajo perspicaz e informado mecanicísticamente que mitiga quirúrgicamente esta vulnerabilidad específica. En el primer paso, utilizamos análisis de circuitos para identificar las cabezas de atención específicas vinculadas causalmente al "jailbreaking" dirigido, como un ataque de cambio de tiempo verbal. En segundo lugar, entrenamos un vector de escalado preciso, canal por canal, para recalibrar la activación de las cabezas vulnerables al tiempo verbal. Por último, lo aplicamos en un "ajuste fino preventivo", forzando al modelo a aprender un mecanismo de rechazo más robusto. En cuatro LLMs, ASGuard reduce eficazmente la tasa de éxito de ataques de "jailbreaking" dirigidos, preservando las capacidades generales y minimizando el rechazo excesivo, logrando un equilibrio Pareto-óptimo entre seguridad y utilidad. Nuestros hallazgos subrayan, basándose en un análisis mecanicista, cómo los sufijos adversariales suprimen la propagación de la dirección que media el rechazo. Además, nuestro trabajo demuestra cómo una comprensión profunda de los componentes internos del modelo puede aprovecharse para desarrollar métodos prácticos, eficientes y dirigidos para ajustar su comportamiento, trazando un rumbo hacia una seguridad de la IA más confiable e interpretable.

English

Large language models (LLMs), despite being safety-aligned, exhibit brittle refusal behaviors that can be circumvented by simple linguistic changes. As tense jailbreaking demonstrates that models refusing harmful requests often comply when rephrased in past tense, a critical generalization gap is revealed in current alignment methods whose underlying mechanisms are poorly understood. In this work, we introduce Activation-Scaling Guard (ASGuard), an insightful, mechanistically-informed framework that surgically mitigates this specific vulnerability. In the first step, we use circuit analysis to identify the specific attention heads causally linked to the targeted jailbreaking such as a tense-changing attack. Second, we train a precise, channel-wise scaling vector to recalibrate the activation of tense vulnerable heads. Lastly, we apply it into a "preventative fine-tuning", forcing the model to learn a more robust refusal mechanism. Across four LLMs, ASGuard effectively reduces the attack success rate of targeted jailbreaking while preserving general capabilities and minimizing over refusal, achieving a Pareto-optimal balance between safety and utility. Our findings underscore how adversarial suffixes suppress the propagation of the refusal-mediating direction, based on mechanistic analysis. Furthermore, our work showcases how a deep understanding of model internals can be leveraged to develop practical, efficient, and targeted methods for adjusting model behavior, charting a course for more reliable and interpretable AI safety.

ASGuard: Guardia de Escalado de Activación para Mitigar Ataques Dirigidos de Jailbreaking

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Resumen

Support