ChatPaper.aiChatPaper

Alignement à Toute Profondeur : Débloquer l'Alignement de Sécurité Innée des LLMs à Toute Profondeur

Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

October 20, 2025
papers.authors: Jiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) présentent un alignement fort mais superficiel : ils refusent directement les requêtes nuisibles lorsqu'un refus est attendu au tout début d'un tour d'assistant, mais cette protection s'effondre une fois qu'une continuation nuisible est en cours (soit par des attaques adverses, soit par des attaques de préremplissage nuisible de l'assistant). Cela soulève une question fondamentale : L'alignement superficiel inné des LLMs peut-il être déverrouillé pour garantir la sécurité à des profondeurs de génération arbitraires ? Pour atteindre cet objectif, nous proposons l'Alignement à Toute Profondeur (ADA), une défense efficace au moment de l'inférence avec un surcoût négligeable. ADA est construit sur notre observation que l'alignement est concentré dans les jetons d'en-tête de l'assistant grâce à leur utilisation répétée dans l'entraînement aux refus superficiels, et que ces jetons possèdent les forts a priori d'alignement du modèle. En réintroduisant ces jetons en cours de génération, ADA incite le modèle à réévaluer la nocivité et à rétablir les refus à n'importe quel point de la génération. À travers diverses familles de modèles open-source (Llama, Gemma, Mistral, Qwen, DeepSeek et gpt-oss), ADA atteint une performance de sécurité robuste sans nécessiter de modifications des paramètres du modèle de base. Il assure un taux de refus proche de 100 % contre des attaques adverses de préremplissage allant de dizaines à milliers de jetons. De plus, ADA réduit le taux de réussite moyen des attaques adverses de prompt notables (comme GCG, AutoDAN, PAIR et TAP) à moins de 3 %. Tout cela est accompli tout en préservant l'utilité sur les tâches bénignes avec un minimum de sur-refus. ADA maintient cette résilience même après que le modèle de base subit un ajustement d'instruction ultérieur (bénin ou adversaire).
English
Large Language Models (LLMs) exhibit strong but shallow alignment: they directly refuse harmful queries when a refusal is expected at the very start of an assistant turn, yet this protection collapses once a harmful continuation is underway (either through the adversarial attacks or via harmful assistant-prefill attacks). This raises a fundamental question: Can the innate shallow alignment in LLMs be unlocked to ensure safety at arbitrary generation depths? To achieve this goal, we propose Any-Depth Alignment (ADA), an effective inference-time defense with negligible overhead. ADA is built based on our observation that alignment is concentrated in the assistant header tokens through repeated use in shallow-refusal training, and these tokens possess the model's strong alignment priors. By reintroducing these tokens mid-stream, ADA induces the model to reassess harmfulness and recover refusals at any point in generation. Across diverse open-source model families (Llama, Gemma, Mistral, Qwen, DeepSeek, and gpt-oss), ADA achieves robust safety performance without requiring any changes to the base model's parameters. It secures a near-100% refusal rate against challenging adversarial prefill attacks ranging from dozens to thousands of tokens. Furthermore, ADA reduces the average success rate of prominent adversarial prompt attacks (such as GCG, AutoDAN, PAIR, and TAP) to below 3%. This is all accomplished while preserving utility on benign tasks with minimal over-refusal. ADA maintains this resilience even after the base model undergoes subsequent instruction tuning (benign or adversarial).
PDF22October 22, 2025