ChatPaper.aiChatPaper

어떤 깊이에서도 정렬: LLM의 내재적 안전 정렬을 어떤 깊이에서도 가능하게 하기

Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

October 20, 2025
저자: Jiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu
cs.AI

초록

대형 언어 모델(LLMs)은 강력하지만 피상적인 정렬(alignment)을 보입니다: 이들은 어시스턴트 차례의 시작 부분에서 거부가 예상될 때 유해한 질문을 직접 거부하지만, 일단 유해한 연속이 진행되면(적대적 공격이나 유해한 어시스턴트-프리필 공격을 통해) 이러한 보호 기능이 무너집니다. 이는 근본적인 질문을 제기합니다: LLMs의 내재된 피상적 정렬을 활용하여 임의의 생성 깊이에서도 안전성을 보장할 수 있을까요? 이를 달성하기 위해 우리는 Any-Depth Alignment(ADA)를 제안합니다. ADA는 미미한 오버헤드로 효과적인 추론 시점 방어 기법입니다. ADA는 정렬이 얕은 거부 훈련에서 반복적으로 사용됨으로써 어시스턴트 헤더 토큰에 집중되어 있으며, 이러한 토큰이 모델의 강력한 정렬 사전 지식을 가지고 있다는 관찰에 기반을 두고 있습니다. 이러한 토큰을 중간에 재도입함으로써, ADA는 모델이 유해성을 재평가하고 생성의 어느 지점에서든 거부를 회복하도록 유도합니다. 다양한 오픈소스 모델 패밀리(Llama, Gemma, Mistral, Qwen, DeepSeek, gpt-oss)에서 ADA는 기본 모델의 매개변수를 변경하지 않고도 견고한 안전성 성능을 달성합니다. 이는 수십에서 수천 개의 토큰에 이르는 도전적인 적대적 프리필 공격에 대해 거의 100%에 가까운 거부율을 보장합니다. 더 나아가, ADA는 주요 적대적 프롬프트 공격(예: GCG, AutoDAN, PAIR, TAP)의 평균 성공률을 3% 미만으로 줄입니다. 이 모든 것은 양성 작업에서의 유용성을 보존하면서 최소한의 과도한 거부로 이루어집니다. ADA는 기본 모델이 후속 지시 튜닝(양성이든 적대적이든)을 거친 후에도 이러한 회복력을 유지합니다.
English
Large Language Models (LLMs) exhibit strong but shallow alignment: they directly refuse harmful queries when a refusal is expected at the very start of an assistant turn, yet this protection collapses once a harmful continuation is underway (either through the adversarial attacks or via harmful assistant-prefill attacks). This raises a fundamental question: Can the innate shallow alignment in LLMs be unlocked to ensure safety at arbitrary generation depths? To achieve this goal, we propose Any-Depth Alignment (ADA), an effective inference-time defense with negligible overhead. ADA is built based on our observation that alignment is concentrated in the assistant header tokens through repeated use in shallow-refusal training, and these tokens possess the model's strong alignment priors. By reintroducing these tokens mid-stream, ADA induces the model to reassess harmfulness and recover refusals at any point in generation. Across diverse open-source model families (Llama, Gemma, Mistral, Qwen, DeepSeek, and gpt-oss), ADA achieves robust safety performance without requiring any changes to the base model's parameters. It secures a near-100% refusal rate against challenging adversarial prefill attacks ranging from dozens to thousands of tokens. Furthermore, ADA reduces the average success rate of prominent adversarial prompt attacks (such as GCG, AutoDAN, PAIR, and TAP) to below 3%. This is all accomplished while preserving utility on benign tasks with minimal over-refusal. ADA maintains this resilience even after the base model undergoes subsequent instruction tuning (benign or adversarial).
PDF22October 22, 2025