ChatPaper.aiChatPaper

Any-Depth Alignment: Freilegung der angeborenen Sicherheitsausrichtung von LLMs auf beliebige Tiefen

Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

October 20, 2025
papers.authors: Jiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) zeigen eine starke, aber oberflächliche Ausrichtung: Sie verweigern direkt schädliche Anfragen, wenn eine Verweigerung zu Beginn eines Assistenten-Turns erwartet wird, doch dieser Schutz bricht zusammen, sobald eine schädliche Fortsetzung im Gange ist (entweder durch adversarische Angriffe oder durch schädliche Assistenten-Prefill-Angriffe). Dies wirft eine grundlegende Frage auf: Kann die inhärente oberflächliche Ausrichtung in LLMs freigesetzt werden, um Sicherheit bei beliebigen Generierungstiefen zu gewährleisten? Um dieses Ziel zu erreichen, schlagen wir Any-Depth Alignment (ADA) vor, eine effektive Inferenzzeit-Verteidigung mit vernachlässigbarem Overhead. ADA basiert auf unserer Beobachtung, dass die Ausrichtung in den Assistenten-Header-Tokens durch wiederholte Verwendung in der oberflächlichen Verweigerungs-Training konzentriert ist und diese Tokens die starken Ausrichtungs-Priors des Modells besitzen. Durch die Wiedereinführung dieser Tokens während des Prozesses induziert ADA das Modell, die Schädlichkeit erneut zu bewerten und Verweigerungen an jedem Punkt der Generierung wiederherzustellen. Über verschiedene Open-Source-Modellfamilien hinweg (Llama, Gemma, Mistral, Qwen, DeepSeek und gpt-oss) erreicht ADA eine robuste Sicherheitsleistung, ohne dass Änderungen an den Parametern des Basismodells erforderlich sind. Es sichert eine nahezu 100%ige Verweigerungsrate gegen herausfordernde adversarische Prefill-Angriffe, die von Dutzenden bis zu Tausenden von Tokens reichen. Darüber hinaus reduziert ADA die durchschnittliche Erfolgsrate prominenter adversarischer Prompt-Angriffe (wie GCG, AutoDAN, PAIR und TAP) auf unter 3%. All dies wird erreicht, während die Nützlichkeit bei harmlosen Aufgaben mit minimaler Überverweigerung erhalten bleibt. ADA behält diese Widerstandsfähigkeit auch bei, nachdem das Basismodell einer nachfolgenden Instruktionsfeinabstimmung (ob harmlos oder adversarisch) unterzogen wurde.
English
Large Language Models (LLMs) exhibit strong but shallow alignment: they directly refuse harmful queries when a refusal is expected at the very start of an assistant turn, yet this protection collapses once a harmful continuation is underway (either through the adversarial attacks or via harmful assistant-prefill attacks). This raises a fundamental question: Can the innate shallow alignment in LLMs be unlocked to ensure safety at arbitrary generation depths? To achieve this goal, we propose Any-Depth Alignment (ADA), an effective inference-time defense with negligible overhead. ADA is built based on our observation that alignment is concentrated in the assistant header tokens through repeated use in shallow-refusal training, and these tokens possess the model's strong alignment priors. By reintroducing these tokens mid-stream, ADA induces the model to reassess harmfulness and recover refusals at any point in generation. Across diverse open-source model families (Llama, Gemma, Mistral, Qwen, DeepSeek, and gpt-oss), ADA achieves robust safety performance without requiring any changes to the base model's parameters. It secures a near-100% refusal rate against challenging adversarial prefill attacks ranging from dozens to thousands of tokens. Furthermore, ADA reduces the average success rate of prominent adversarial prompt attacks (such as GCG, AutoDAN, PAIR, and TAP) to below 3%. This is all accomplished while preserving utility on benign tasks with minimal over-refusal. ADA maintains this resilience even after the base model undergoes subsequent instruction tuning (benign or adversarial).
PDF22October 22, 2025