ASGuard: Activatie-Schaalbeveiliging om Gerichte Jailbreaking-aanvallen te Mitigeren

Samenvatting

Grote taalmodellen (LLM's) vertonen, ondanks veiligheidsafstemming (safety alignment), broos weigeringsgedrag dat kan worden omzeild door eenvoudige taalkundige aanpassingen. Zo toont 'tense jailbreaking' aan dat modellen die schadelijke verzoeken weigeren, deze vaak wel uitvoeren wanneer ze in de verleden tijd worden geherformuleerd. Dit onthult een kritieke generalisatiekloof in huidige afstemmingsmethoden, waarvan de onderliggende mechanismen slecht worden begrepen. In dit werk introduceren we de Activation-Scaling Guard (ASGuard), een inzichtelijk, mechanisch onderbouwd kader dat deze specifieke kwetsbaarheid gericht mitigeert. In de eerste stap gebruiken we circuitanalyse om de specifieke aandachtskoppen (attention heads) te identificeren die causaal verband houden met de beoogde jailbreak, zoals een aanval via tijdsverandering. Ten tweede trainen we een precieze, kanaalgewijze schaalvector (scaling vector) om de activering van de op tijdsverandering gevoelige koppen te herkalibreren. Tot slot passen we deze toe in een 'preventieve fine-tuning', waarbij we het model dwingen een robuuster weigeringsmechanisme aan te leren. Over vier LLM's gezien, verlaagt ASGuard effectief het aanvalsuccespercentage van gerichte jailbreaks, waarbij de algemene capaciteiten behouden blijven en overmatig weigeren wordt geminimaliseerd. Dit resulteert in een Pareto-optimaal evenwicht tussen veiligheid en bruikbaarheid. Onze bevindingen benadrukken, gebaseerd op mechanische analyse, hoe adversariële achtervoegsels (adversarial suffixes) de voortplanting van de weigeringsbemiddelende richting onderdrukken. Verder toont ons werk aan hoe een diepgaand begrip van de interne modelstructuur kan worden benut om praktische, efficiënte en gerichte methoden te ontwikkelen voor het aanpassen van modelgedrag, waarmee we een koers uitzetten naar betrouwbaardere en interpreteerbare AI-veiligheid.

English

Large language models (LLMs), despite being safety-aligned, exhibit brittle refusal behaviors that can be circumvented by simple linguistic changes. As tense jailbreaking demonstrates that models refusing harmful requests often comply when rephrased in past tense, a critical generalization gap is revealed in current alignment methods whose underlying mechanisms are poorly understood. In this work, we introduce Activation-Scaling Guard (ASGuard), an insightful, mechanistically-informed framework that surgically mitigates this specific vulnerability. In the first step, we use circuit analysis to identify the specific attention heads causally linked to the targeted jailbreaking such as a tense-changing attack. Second, we train a precise, channel-wise scaling vector to recalibrate the activation of tense vulnerable heads. Lastly, we apply it into a "preventative fine-tuning", forcing the model to learn a more robust refusal mechanism. Across four LLMs, ASGuard effectively reduces the attack success rate of targeted jailbreaking while preserving general capabilities and minimizing over refusal, achieving a Pareto-optimal balance between safety and utility. Our findings underscore how adversarial suffixes suppress the propagation of the refusal-mediating direction, based on mechanistic analysis. Furthermore, our work showcases how a deep understanding of model internals can be leveraged to develop practical, efficient, and targeted methods for adjusting model behavior, charting a course for more reliable and interpretable AI safety.

ASGuard: Activatie-Schaalbeveiliging om Gerichte Jailbreaking-aanvallen te Mitigeren

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Samenvatting

Support