ChatPaper.aiChatPaper

Any-Depth Alignment: Het Ontsluiten van Ingebouwde Veiligheidsafstemming van LLM's op Elke Diepte

Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

October 20, 2025
Auteurs: Jiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu
cs.AI

Samenvatting

Large Language Models (LLMs) vertonen een sterke maar oppervlakkige afstemming: ze weigeren schadelijke vragen direct wanneer een weigering aan het begin van een assistent-interactie wordt verwacht, maar deze bescherming valt uiteen zodra een schadelijke voortzetting plaatsvindt (hetzij via adversariële aanvallen of via schadelijke assistent-prefill-aanvallen). Dit roept een fundamentele vraag op: Kan de inherente oppervlakkige afstemming in LLMs worden benut om veiligheid te garanderen bij willekeurige generatiedieptes? Om dit doel te bereiken, stellen we Any-Depth Alignment (ADA) voor, een effectieve verdediging tijdens de inferentie met verwaarloosbare overhead. ADA is gebaseerd op onze observatie dat afstemming geconcentreerd is in de assistent-header-tokens door herhaald gebruik in oppervlakkige-weigeringstraining, en dat deze tokens sterke afstemmingsprioriteiten van het model bezitten. Door deze tokens halverwege opnieuw in te voeren, dwingt ADA het model om schadelijkheid opnieuw te beoordelen en weigeringen te herstellen op elk punt in de generatie. Over diverse open-source modelfamilies (Llama, Gemma, Mistral, Qwen, DeepSeek en gpt-oss) behaalt ADA robuuste veiligheidsprestaties zonder wijzigingen aan de parameters van het basismodel. Het garandeert een weigeringspercentage van bijna 100% tegen uitdagende adversariële prefill-aanvallen variërend van tientallen tot duizenden tokens. Bovendien verlaagt ADA het gemiddelde slagingspercentage van prominente adversariële prompt-aanvallen (zoals GCG, AutoDAN, PAIR en TAP) tot onder de 3%. Dit alles wordt bereikt terwijl de bruikbaarheid bij goedaardige taken behouden blijft met minimale overmatige weigering. ADA behoudt deze veerkracht zelfs nadat het basismodel aanvullende instructieafstemming ondergaat (goedaardig of adversariëel).
English
Large Language Models (LLMs) exhibit strong but shallow alignment: they directly refuse harmful queries when a refusal is expected at the very start of an assistant turn, yet this protection collapses once a harmful continuation is underway (either through the adversarial attacks or via harmful assistant-prefill attacks). This raises a fundamental question: Can the innate shallow alignment in LLMs be unlocked to ensure safety at arbitrary generation depths? To achieve this goal, we propose Any-Depth Alignment (ADA), an effective inference-time defense with negligible overhead. ADA is built based on our observation that alignment is concentrated in the assistant header tokens through repeated use in shallow-refusal training, and these tokens possess the model's strong alignment priors. By reintroducing these tokens mid-stream, ADA induces the model to reassess harmfulness and recover refusals at any point in generation. Across diverse open-source model families (Llama, Gemma, Mistral, Qwen, DeepSeek, and gpt-oss), ADA achieves robust safety performance without requiring any changes to the base model's parameters. It secures a near-100% refusal rate against challenging adversarial prefill attacks ranging from dozens to thousands of tokens. Furthermore, ADA reduces the average success rate of prominent adversarial prompt attacks (such as GCG, AutoDAN, PAIR, and TAP) to below 3%. This is all accomplished while preserving utility on benign tasks with minimal over-refusal. ADA maintains this resilience even after the base model undergoes subsequent instruction tuning (benign or adversarial).
PDF22October 22, 2025