ASGuard : Protection par Mise à l'Échelle de l'Activation pour Atténuer les Attaques Ciblées de Contournement

Résumé

Les grands modèles de langage (LLM), bien qu'alignés pour la sécurité, présentent des comportements de refus fragiles qui peuvent être contournés par de simples modifications linguistiques. Comme le jailbreaking par changement de temps le démontre, les modèles refusant des requêtes nuisibles y répondent souvent favorablement lorsqu'elles sont reformulées au passé, révélant une faille de généralisation critique dans les méthodes d'alignement actuelles, dont les mécanismes sous-jacents sont mal compris. Dans ce travail, nous présentons Activation-Scaling Guard (ASGuard), un cadre conceptuel éclairé mécanistiquement qui atténue de manière ciblée cette vulnérabilité spécifique. Dans un premier temps, nous utilisons l'analyse de circuits pour identifier les têtes d'attention spécifiques liées causalement au jailbreaking ciblé, tel qu'une attaque par modification du temps verbal. Deuxièmement, nous entraînons un vecteur de mise à l'échelle précis, canal par canal, pour recalibrer l'activation des têtes vulnérables au temps. Enfin, nous l'appliquons via un "fine-tuning préventif", forçant le modèle à apprendre un mécanisme de refus plus robuste. Sur quatre LLM, ASGuard réduit efficacement le taux de réussite des attaques de jailbreaking ciblées tout en préservant les capacités générales et en minimisant les refus excessifs, atteignant un équilibre Pareto-optimal entre sécurité et utilité. Nos résultats soulignent, sur la base d'une analyse mécaniste, comment les suffixes adverses suppriment la propagation de la direction médiatrice du refus. De plus, notre travail montre comment une compréhension approfondie des mécanismes internes des modèles peut être exploitée pour développer des méthodes pratiques, efficaces et ciblées d'ajustement du comportement, traçant ainsi une voie vers une sécurité de l'IA plus fiable et interprétable.

English

Large language models (LLMs), despite being safety-aligned, exhibit brittle refusal behaviors that can be circumvented by simple linguistic changes. As tense jailbreaking demonstrates that models refusing harmful requests often comply when rephrased in past tense, a critical generalization gap is revealed in current alignment methods whose underlying mechanisms are poorly understood. In this work, we introduce Activation-Scaling Guard (ASGuard), an insightful, mechanistically-informed framework that surgically mitigates this specific vulnerability. In the first step, we use circuit analysis to identify the specific attention heads causally linked to the targeted jailbreaking such as a tense-changing attack. Second, we train a precise, channel-wise scaling vector to recalibrate the activation of tense vulnerable heads. Lastly, we apply it into a "preventative fine-tuning", forcing the model to learn a more robust refusal mechanism. Across four LLMs, ASGuard effectively reduces the attack success rate of targeted jailbreaking while preserving general capabilities and minimizing over refusal, achieving a Pareto-optimal balance between safety and utility. Our findings underscore how adversarial suffixes suppress the propagation of the refusal-mediating direction, based on mechanistic analysis. Furthermore, our work showcases how a deep understanding of model internals can be leveraged to develop practical, efficient, and targeted methods for adjusting model behavior, charting a course for more reliable and interpretable AI safety.

ASGuard : Protection par Mise à l'Échelle de l'Activation pour Atténuer les Attaques Ciblées de Contournement

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Résumé

Support