ASGuard: Protezione tramite Scalatura delle Attivazioni per Mitigare gli Attacchi Mirati di Jailbreaking

Abstract

I grandi modelli linguistici (LLM), nonostante siano allineati per la sicurezza, mostrano comportamenti di rifiuto fragili che possono essere elusi tramite semplici cambiamenti linguistici. Il cosiddetto "jailbreaking del tempo verbale" dimostra che i modelli che rifiutano richieste dannose spesso le accettano quando queste vengono riformulate al passato, rivelando un'importante lacuna di generalizzazione negli attuali metodi di allineamento, i cui meccanismi sottostanti sono poco compresi. In questo lavoro, introduciamo Activation-Scaling Guard (ASGuard), un quadro meccanicisticamente informato che mitiga in modo mirato questa specifica vulnerabilità. In una prima fase, utilizziamo l'analisi dei circuiti per identificare le specifiche teste di attenzione causalmente collegate al jailbreaking mirato, come un attacco che modifica il tempo verbale. In secondo luogo, addestriamo un vettore di scaling preciso, per canale, per ricalibrare l'attivazione delle teste vulnerabili al tempo verbale. Infine, lo applichiamo in un "fine-tuning preventivo", forzando il modello ad apprendere un meccanismo di rifiuto più robusto. Su quattro LLM, ASGuard riduce efficacemente il tasso di successo dell'attacco del jailbreaking mirato, preservando al contempo le capacità generali e minimizzando i rifiuti eccessivi, raggiungendo un bilanciamento Pareto-ottimale tra sicurezza e utilità. Le nostre scoperte sottolineano, sulla base dell'analisi meccanicistica, come i suffissi avversariali sopprimano la propagazione della direzione che media il rifiuto. Inoltre, il nostro lavoro dimostra come una profonda comprensione degli interni del modello possa essere sfruttata per sviluppare metodi pratici, efficienti e mirati per aggiustare il comportamento del modello, tracciando una rotta verso una sicurezza dell'IA più affidabile e interpretabile.

English

Large language models (LLMs), despite being safety-aligned, exhibit brittle refusal behaviors that can be circumvented by simple linguistic changes. As tense jailbreaking demonstrates that models refusing harmful requests often comply when rephrased in past tense, a critical generalization gap is revealed in current alignment methods whose underlying mechanisms are poorly understood. In this work, we introduce Activation-Scaling Guard (ASGuard), an insightful, mechanistically-informed framework that surgically mitigates this specific vulnerability. In the first step, we use circuit analysis to identify the specific attention heads causally linked to the targeted jailbreaking such as a tense-changing attack. Second, we train a precise, channel-wise scaling vector to recalibrate the activation of tense vulnerable heads. Lastly, we apply it into a "preventative fine-tuning", forcing the model to learn a more robust refusal mechanism. Across four LLMs, ASGuard effectively reduces the attack success rate of targeted jailbreaking while preserving general capabilities and minimizing over refusal, achieving a Pareto-optimal balance between safety and utility. Our findings underscore how adversarial suffixes suppress the propagation of the refusal-mediating direction, based on mechanistic analysis. Furthermore, our work showcases how a deep understanding of model internals can be leveraged to develop practical, efficient, and targeted methods for adjusting model behavior, charting a course for more reliable and interpretable AI safety.

ASGuard: Protezione tramite Scalatura delle Attivazioni per Mitigare gli Attacchi Mirati di Jailbreaking

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Abstract

Support