ChatPaper.aiChatPaper

Alinhamento de Qualquer Profundidade: Desbloqueando o Alinhamento de Segurança Inerente de LLMs para Qualquer Profundidade

Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

October 20, 2025
Autores: Jiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) exibem um alinhamento forte, mas superficial: eles recusam diretamente consultas prejudiciais quando uma recusa é esperada logo no início de uma interação assistente, mas essa proteção colapsa uma vez que uma continuação prejudicial está em andamento (seja por meio de ataques adversariais ou por ataques de preenchimento assistente prejudicial). Isso levanta uma questão fundamental: O alinhamento superficial inerente aos LLMs pode ser desbloqueado para garantir segurança em profundidades arbitrárias de geração? Para alcançar esse objetivo, propomos o Alinhamento em Qualquer Profundidade (ADA), uma defesa eficaz no tempo de inferência com sobrecarga insignificante. O ADA é construído com base em nossa observação de que o alinhamento está concentrado nos tokens de cabeçalho do assistente por meio do uso repetido em treinamentos de recusa superficial, e esses tokens possuem fortes prioridades de alinhamento do modelo. Ao reintroduzir esses tokens no meio do processo, o ADA induz o modelo a reavaliar a nocividade e recuperar recusas em qualquer ponto da geração. Em diversas famílias de modelos de código aberto (Llama, Gemma, Mistral, Qwen, DeepSeek e gpt-oss), o ADA alcança um desempenho robusto de segurança sem exigir qualquer alteração nos parâmetros do modelo base. Ele garante uma taxa de recusa próxima de 100% contra ataques adversariais de preenchimento desafiadores, variando de dezenas a milhares de tokens. Além disso, o ADA reduz a taxa média de sucesso de ataques adversariais de prompt proeminentes (como GCG, AutoDAN, PAIR e TAP) para menos de 3%. Tudo isso é alcançado enquanto preserva a utilidade em tarefas benignas com recusas excessivas mínimas. O ADA mantém essa resiliência mesmo após o modelo base passar por ajustes de instrução subsequentes (benignos ou adversariais).
English
Large Language Models (LLMs) exhibit strong but shallow alignment: they directly refuse harmful queries when a refusal is expected at the very start of an assistant turn, yet this protection collapses once a harmful continuation is underway (either through the adversarial attacks or via harmful assistant-prefill attacks). This raises a fundamental question: Can the innate shallow alignment in LLMs be unlocked to ensure safety at arbitrary generation depths? To achieve this goal, we propose Any-Depth Alignment (ADA), an effective inference-time defense with negligible overhead. ADA is built based on our observation that alignment is concentrated in the assistant header tokens through repeated use in shallow-refusal training, and these tokens possess the model's strong alignment priors. By reintroducing these tokens mid-stream, ADA induces the model to reassess harmfulness and recover refusals at any point in generation. Across diverse open-source model families (Llama, Gemma, Mistral, Qwen, DeepSeek, and gpt-oss), ADA achieves robust safety performance without requiring any changes to the base model's parameters. It secures a near-100% refusal rate against challenging adversarial prefill attacks ranging from dozens to thousands of tokens. Furthermore, ADA reduces the average success rate of prominent adversarial prompt attacks (such as GCG, AutoDAN, PAIR, and TAP) to below 3%. This is all accomplished while preserving utility on benign tasks with minimal over-refusal. ADA maintains this resilience even after the base model undergoes subsequent instruction tuning (benign or adversarial).
PDF22October 22, 2025