ChatPaper.aiChatPaper

Выравнивание на любой глубине: Раскрытие врожденного выравнивания безопасности языковых моделей на любом уровне глубины

Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

October 20, 2025
Авторы: Jiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu
cs.AI

Аннотация

Крупные языковые модели (LLMs) демонстрируют сильное, но поверхностное согласование: они напрямую отказываются от вредоносных запросов, когда отказ ожидается в самом начале ответа ассистента, однако эта защита рушится, как только начинается вредоносное продолжение (либо через атаки со стороны злоумышленников, либо через атаки с предзаполнением ассистента). Это поднимает фундаментальный вопрос: Можно ли раскрыть врожденное поверхностное согласование в LLMs, чтобы обеспечить безопасность на любой глубине генерации? Для достижения этой цели мы предлагаем Any-Depth Alignment (ADA) — эффективную защиту на этапе вывода с минимальными накладными расходами. ADA основана на нашем наблюдении, что согласование сосредоточено в токенах заголовка ассистента благодаря их многократному использованию в обучении на поверхностные отказы, и эти токены обладают сильными априорными знаниями модели о согласовании. Путем повторного введения этих токенов в середине процесса генерации ADA побуждает модель переоценивать вредоносность и восстанавливать отказы на любом этапе генерации. На различных семействах открытых моделей (Llama, Gemma, Mistral, Qwen, DeepSeek и gpt-oss) ADA демонстрирует устойчивую производительность в обеспечении безопасности, не требуя изменений параметров базовой модели. Она обеспечивает почти 100% уровень отказов против сложных атак с предзаполнением, варьирующихся от десятков до тысяч токенов. Кроме того, ADA снижает средний уровень успешности известных атак с вредоносными запросами (таких как GCG, AutoDAN, PAIR и TAP) до менее 3%. Все это достигается при сохранении полезности на доброкачественных задачах с минимальным уровнем избыточных отказов. ADA сохраняет эту устойчивость даже после того, как базовая модель проходит последующую тонкую настройку (доброкачественную или вредоносную).
English
Large Language Models (LLMs) exhibit strong but shallow alignment: they directly refuse harmful queries when a refusal is expected at the very start of an assistant turn, yet this protection collapses once a harmful continuation is underway (either through the adversarial attacks or via harmful assistant-prefill attacks). This raises a fundamental question: Can the innate shallow alignment in LLMs be unlocked to ensure safety at arbitrary generation depths? To achieve this goal, we propose Any-Depth Alignment (ADA), an effective inference-time defense with negligible overhead. ADA is built based on our observation that alignment is concentrated in the assistant header tokens through repeated use in shallow-refusal training, and these tokens possess the model's strong alignment priors. By reintroducing these tokens mid-stream, ADA induces the model to reassess harmfulness and recover refusals at any point in generation. Across diverse open-source model families (Llama, Gemma, Mistral, Qwen, DeepSeek, and gpt-oss), ADA achieves robust safety performance without requiring any changes to the base model's parameters. It secures a near-100% refusal rate against challenging adversarial prefill attacks ranging from dozens to thousands of tokens. Furthermore, ADA reduces the average success rate of prominent adversarial prompt attacks (such as GCG, AutoDAN, PAIR, and TAP) to below 3%. This is all accomplished while preserving utility on benign tasks with minimal over-refusal. ADA maintains this resilience even after the base model undergoes subsequent instruction tuning (benign or adversarial).
PDF22October 22, 2025