ASGuard: Aktivierungs-Skalierungs-Schutz zur Abwehr gezielter Jailbreaking-Angriffe

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen trotz Sicherheitsausrichtung brüchige Ablehnungsverhalten, die durch einfache linguistische Änderungen umgangen werden können. Da sogenanntes "Tense-Jailbreaking" demonstriert, dass Modelle, die schädliche Anfragen ablehnen, diese oft erfüllen, wenn sie in der Vergangenheitsform umformuliert werden, offenbart sich eine kritische Generalisierungslücke in aktuellen Alignment-Methoden, deren zugrundeliegende Mechanismen kaum verstanden sind. In dieser Arbeit stellen wir Activation-Scaling Guard (ASGuard) vor, einen einsichtsvollen, mechanistisch fundierten Rahmen, der diese spezifische Verwundbarkeit gezielt abmildert. Im ersten Schritt identifizieren wir mittels Schaltkreisanalyse die spezifischen Aufmerksamkeitsköpfe, die kausal mit dem gezielten Jailbreaking, wie einem Tense-Changing-Angriff, verknüpft sind. Zweitens trainieren wir einen präzisen, kanalweisen Skalierungsvektor, um die Aktivierung der tensempfindlichen Köpfe neu zu kalibrieren. Zuletzt wenden wir ihn in einem "präventiven Fine-Tuning" an, um das Modell zu zwingen, einen robusteren Ablehnungsmechanismus zu erlernen. Über vier LLMs hinweg reduziert ASGuard die Angriffserfolgsrate gezielten Jailbreakings effektiv, während es allgemeine Fähigkeiten erhält und übermäßige Ablehnung minimiert, wodurch ein Pareto-optimales Gleichgewicht zwischen Sicherheit und Nutzbarkeit erreicht wird. Unsere Ergebnisse unterstrehen, basierend auf mechanistischer Analyse, wie adversarische Suffixe die Propagation der ablehnungsvermittelnden Richtung unterdrücken. Darüber hinaus zeigt unsere Arbeit, wie ein tiefes Verständnis der Modellinterna genutzt werden kann, um praktische, effiziente und gezielte Methoden zur Anpassung des Modellverhaltens zu entwickeln, und weist so den Weg zu zuverlässigerer und interpretierbarer KI-Sicherheit.

English

Large language models (LLMs), despite being safety-aligned, exhibit brittle refusal behaviors that can be circumvented by simple linguistic changes. As tense jailbreaking demonstrates that models refusing harmful requests often comply when rephrased in past tense, a critical generalization gap is revealed in current alignment methods whose underlying mechanisms are poorly understood. In this work, we introduce Activation-Scaling Guard (ASGuard), an insightful, mechanistically-informed framework that surgically mitigates this specific vulnerability. In the first step, we use circuit analysis to identify the specific attention heads causally linked to the targeted jailbreaking such as a tense-changing attack. Second, we train a precise, channel-wise scaling vector to recalibrate the activation of tense vulnerable heads. Lastly, we apply it into a "preventative fine-tuning", forcing the model to learn a more robust refusal mechanism. Across four LLMs, ASGuard effectively reduces the attack success rate of targeted jailbreaking while preserving general capabilities and minimizing over refusal, achieving a Pareto-optimal balance between safety and utility. Our findings underscore how adversarial suffixes suppress the propagation of the refusal-mediating direction, based on mechanistic analysis. Furthermore, our work showcases how a deep understanding of model internals can be leveraged to develop practical, efficient, and targeted methods for adjusting model behavior, charting a course for more reliable and interpretable AI safety.

ASGuard: Aktivierungs-Skalierungs-Schutz zur Abwehr gezielter Jailbreaking-Angriffe

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Zusammenfassung

Support