ChatPaper.aiChatPaper

Alineación a Cualquier Profundidad: Desbloqueando la Alineación de Seguridad Innata de los LLM a Cualquier Profundidad

Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

October 20, 2025
Autores: Jiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben una alineación fuerte pero superficial: rechazan directamente consultas dañinas cuando se espera un rechazo al inicio de un turno del asistente, pero esta protección colapsa una vez que una continuación dañina está en marcha (ya sea a través de ataques adversarios o mediante ataques de prellenado dañino por parte del asistente). Esto plantea una pregunta fundamental: ¿Puede desbloquearse la alineación superficial innata de los LLMs para garantizar la seguridad en profundidades de generación arbitrarias? Para lograr este objetivo, proponemos Alineación a Cualquier Profundidad (ADA, por sus siglas en inglés), una defensa efectiva en tiempo de inferencia con un costo computacional insignificante. ADA se basa en nuestra observación de que la alineación se concentra en los tokens de cabecera del asistente debido a su uso repetido en el entrenamiento de rechazo superficial, y estos tokens poseen los fuertes sesgos de alineación del modelo. Al reintroducir estos tokens en medio del flujo, ADA induce al modelo a reevaluar la nocividad y recuperar los rechazos en cualquier punto de la generación. En diversas familias de modelos de código abierto (Llama, Gemma, Mistral, Qwen, DeepSeek y gpt-oss), ADA logra un rendimiento robusto en seguridad sin requerir cambios en los parámetros del modelo base. Asegura una tasa de rechazo cercana al 100% frente a ataques adversarios de prellenado que van desde decenas hasta miles de tokens. Además, ADA reduce la tasa de éxito promedio de ataques adversarios destacados (como GCG, AutoDAN, PAIR y TAP) a menos del 3%. Todo esto se logra manteniendo la utilidad en tareas benignas con un mínimo de rechazos excesivos. ADA conserva esta resiliencia incluso después de que el modelo base se somete a ajustes posteriores de instrucción (benignos o adversarios).
English
Large Language Models (LLMs) exhibit strong but shallow alignment: they directly refuse harmful queries when a refusal is expected at the very start of an assistant turn, yet this protection collapses once a harmful continuation is underway (either through the adversarial attacks or via harmful assistant-prefill attacks). This raises a fundamental question: Can the innate shallow alignment in LLMs be unlocked to ensure safety at arbitrary generation depths? To achieve this goal, we propose Any-Depth Alignment (ADA), an effective inference-time defense with negligible overhead. ADA is built based on our observation that alignment is concentrated in the assistant header tokens through repeated use in shallow-refusal training, and these tokens possess the model's strong alignment priors. By reintroducing these tokens mid-stream, ADA induces the model to reassess harmfulness and recover refusals at any point in generation. Across diverse open-source model families (Llama, Gemma, Mistral, Qwen, DeepSeek, and gpt-oss), ADA achieves robust safety performance without requiring any changes to the base model's parameters. It secures a near-100% refusal rate against challenging adversarial prefill attacks ranging from dozens to thousands of tokens. Furthermore, ADA reduces the average success rate of prominent adversarial prompt attacks (such as GCG, AutoDAN, PAIR, and TAP) to below 3%. This is all accomplished while preserving utility on benign tasks with minimal over-refusal. ADA maintains this resilience even after the base model undergoes subsequent instruction tuning (benign or adversarial).
PDF22October 22, 2025