ASGuard: Защита на основе масштабирования активаций для противодействия целевым атакам на взлом моделей

Аннотация

Крупные языковые модели (LLM), несмотря на выравнивание по безопасности, демонстрируют хрупкие поведенческие паттерны отказа, которые можно обойти с помощью простых лингвистических изменений. Метод взлома через изменение времени (tense jailbreaking) показывает, что модели, отказывающие во вредоносных запросах, часто выполняют их при перефразировании в прошедшем времени, что выявляет критический пробел в обобщающей способности современных методов выравнивания, чьи базовые механизмы плохо изучены. В данной работе мы представляем ASGuard (Activation-Scaling Guard) — интерпретируемый, механистически обоснованный фреймворк, который точечно устраняет эту уязвимость. На первом этапе мы используем анализ цепей для идентификации конкретных голов внимания, причинно связанных с целевым взломом, таким как атака через изменение времени. Во-вторых, мы обучаем точный поэлементный масштабирующий вектор для калибровки активаций уязвимых к изменению времени голов. Наконец, мы применяем его в рамках «превентивной тонкой настройки», заставляя модель изучать более устойчивый механизм отказа. На четырех LLM ASGuard эффективно снижает процент успеха целевых атак, сохраняя общие способности и минимизируя избыточные отказы, достигая Парето-оптимального баланса между безопасностью и полезностью. Наши результаты, основанные на механистическом анализе, показывают, как адверсиарные суффиксы подавляют распространение направления, опосредующего отказ. Кроме того, наша работа демонстрирует, как глубокое понимание внутренних механизмов модели можно использовать для разработки практичных, эффективных и целенаправленных методов корректировки поведения моделей, прокладывая путь к созданию более надежного и интерпретируемого ИИ.

English

Large language models (LLMs), despite being safety-aligned, exhibit brittle refusal behaviors that can be circumvented by simple linguistic changes. As tense jailbreaking demonstrates that models refusing harmful requests often comply when rephrased in past tense, a critical generalization gap is revealed in current alignment methods whose underlying mechanisms are poorly understood. In this work, we introduce Activation-Scaling Guard (ASGuard), an insightful, mechanistically-informed framework that surgically mitigates this specific vulnerability. In the first step, we use circuit analysis to identify the specific attention heads causally linked to the targeted jailbreaking such as a tense-changing attack. Second, we train a precise, channel-wise scaling vector to recalibrate the activation of tense vulnerable heads. Lastly, we apply it into a "preventative fine-tuning", forcing the model to learn a more robust refusal mechanism. Across four LLMs, ASGuard effectively reduces the attack success rate of targeted jailbreaking while preserving general capabilities and minimizing over refusal, achieving a Pareto-optimal balance between safety and utility. Our findings underscore how adversarial suffixes suppress the propagation of the refusal-mediating direction, based on mechanistic analysis. Furthermore, our work showcases how a deep understanding of model internals can be leveraged to develop practical, efficient, and targeted methods for adjusting model behavior, charting a course for more reliable and interpretable AI safety.

ASGuard: Защита на основе масштабирования активаций для противодействия целевым атакам на взлом моделей

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Аннотация

Support