AdvChain: 대형 추론 모델의 강건한 안전성 정렬을 위한 적대적 사고 연쇄 튜닝
AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models
September 29, 2025
저자: Zihao Zhu, Xinyu Wu, Gehan Hu, Siwei Lyu, Ke Xu, Baoyuan Wu
cs.AI
초록
대형 추론 모델(Large Reasoning Models, LRMs)은 사고의 연쇄(Chain-of-Thought, CoT) 추론을 통해 복잡한 문제 해결에서 뛰어난 능력을 보여왔습니다. 그러나 CoT의 다단계 특성은 기존 언어 모델 정렬을 넘어서는 새로운 안전성 문제를 야기합니다. 우리는 현재의 안전 CoT 튜닝 방법에서 실패 모드를 발견했습니다: 사소한 추론 편차가 사고 과정 전반에 걸쳐 점진적으로 증폭되며, 유해한 순응 또는 과도한 거부로 이어지는 '눈덩이 효과'입니다. 이 효과는 모델이 완벽한 추론 스크립트를 모방하도록 훈련되면서도 스스로 수정하는 법을 배우지 못한 데서 비롯됩니다. 이러한 한계를 해결하기 위해, 우리는 적대적 CoT 튜닝을 통해 모델이 동적으로 스스로 수정하는 법을 가르치는 정렬 패러다임인 AdvChain을 제안합니다. 우리의 방법은 유혹-수정(Temptation-Correction)과 주저-수정(Hesitation-Correction) 샘플을 포함한 데이터셋을 구축하는 것으로, 모델이 유해한 추론 편향과 불필요한 경계에서 회복하는 법을 학습합니다. 광범위한 실험 결과, AdvChain은 탈옥 공격(jailbreak attacks)과 CoT 하이재킹에 대한 견고성을 크게 향상시키면서도 무해한 프롬프트에 대한 과도한 거부를 상당히 줄여, 추론 능력을 저하시키지 않으면서도 우수한 안전성-유용성 균형을 달성했습니다. 우리의 연구는 더 견고하고 신뢰할 수 있는 추론 모델을 구축하기 위한 새로운 방향을 제시합니다.
English
Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in
complex problem-solving through Chain-of-Thought (CoT) reasoning. However, the
multi-step nature of CoT introduces new safety challenges that extend beyond
conventional language model alignment. We identify a failure mode in current
safety CoT tuning methods: the snowball effect, where minor reasoning
deviations progressively amplify throughout the thought process, leading to
either harmful compliance or excessive refusal. This effect stems from models
being trained to imitate perfect reasoning scripts without learning to
self-correct. To address this limitation, we propose AdvChain, an alignment
paradigm that teaches models dynamic self-correction through adversarial CoT
tuning. Our method involves constructing a dataset containing
Temptation-Correction and Hesitation-Correction samples, where models learn to
recover from harmful reasoning drifts and unnecessary cautions. Extensive
experiments show that AdvChain significantly enhances robustness against
jailbreak attacks and CoT hijacking while substantially reducing over-refusal
on benign prompts, achieving a superior safety-utility balance without
compromising reasoning capabilities. Our work establishes a new direction for
building more robust and reliable reasoning models.