Allineamento a Qualsiasi Profondità: Sbloccare l'Allineamento Sicuro Innato dei Modelli Linguistici a Qualsiasi Profondità
Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth
October 20, 2025
Autori: Jiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) mostrano un allineamento forte ma superficiale: rifiutano direttamente le query dannose quando ci si aspetta un rifiuto all'inizio di un turno dell'assistente, ma questa protezione crolla una volta che una continuazione dannosa è in corso (sia attraverso attacchi avversari che tramite attacchi di prefill dannosi dell'assistente). Ciò solleva una questione fondamentale: è possibile sbloccare l'allineamento superficiale innato nei LLM per garantire la sicurezza a qualsiasi profondità di generazione? Per raggiungere questo obiettivo, proponiamo Any-Depth Alignment (ADA), una difesa efficace al momento dell'inferenza con un sovraccarico trascurabile. ADA si basa sulla nostra osservazione che l'allineamento è concentrato nei token di intestazione dell'assistente attraverso l'uso ripetuto nell'addestramento al rifiuto superficiale, e questi token possiedono i forti prior di allineamento del modello. Reintroducendo questi token a metà flusso, ADA induce il modello a rivalutare la dannosità e a recuperare i rifiuti in qualsiasi punto della generazione. Attraverso diverse famiglie di modelli open-source (Llama, Gemma, Mistral, Qwen, DeepSeek e gpt-oss), ADA raggiunge una robusta performance di sicurezza senza richiedere alcuna modifica ai parametri del modello di base. Ottiene un tasso di rifiuto vicino al 100% contro attacchi di prefill avversari che vanno da decine a migliaia di token. Inoltre, ADA riduce il tasso di successo medio di prominenti attacchi di prompt avversari (come GCG, AutoDAN, PAIR e TAP) a meno del 3%. Tutto ciò viene realizzato preservando l'utilità su compiti benigni con un minimo di sovra-rifiuto. ADA mantiene questa resilienza anche dopo che il modello di base è stato sottoposto a successivi tuning di istruzione (benigni o avversari).
English
Large Language Models (LLMs) exhibit strong but shallow alignment: they
directly refuse harmful queries when a refusal is expected at the very start of
an assistant turn, yet this protection collapses once a harmful continuation is
underway (either through the adversarial attacks or via harmful
assistant-prefill attacks). This raises a fundamental question: Can the innate
shallow alignment in LLMs be unlocked to ensure safety at arbitrary generation
depths? To achieve this goal, we propose Any-Depth Alignment (ADA), an
effective inference-time defense with negligible overhead. ADA is built based
on our observation that alignment is concentrated in the assistant header
tokens through repeated use in shallow-refusal training, and these tokens
possess the model's strong alignment priors. By reintroducing these tokens
mid-stream, ADA induces the model to reassess harmfulness and recover refusals
at any point in generation. Across diverse open-source model families (Llama,
Gemma, Mistral, Qwen, DeepSeek, and gpt-oss), ADA achieves robust safety
performance without requiring any changes to the base model's parameters. It
secures a near-100% refusal rate against challenging adversarial prefill
attacks ranging from dozens to thousands of tokens. Furthermore, ADA reduces
the average success rate of prominent adversarial prompt attacks (such as GCG,
AutoDAN, PAIR, and TAP) to below 3%. This is all accomplished while preserving
utility on benign tasks with minimal over-refusal. ADA maintains this
resilience even after the base model undergoes subsequent instruction tuning
(benign or adversarial).