AdvChain: Ajuste Adversarial de Cadeia de Pensamento para Alinhamento Robusto de Segurança em Modelos de Raciocínio de Grande Escala
AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models
September 29, 2025
Autores: Zihao Zhu, Xinyu Wu, Gehan Hu, Siwei Lyu, Ke Xu, Baoyuan Wu
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) demonstraram capacidades notáveis na resolução de problemas complexos por meio do raciocínio em Cadeia de Pensamento (CoT). No entanto, a natureza de múltiplos passos do CoT introduz novos desafios de segurança que vão além do alinhamento convencional de modelos de linguagem. Identificamos um modo de falha nos métodos atuais de ajuste de segurança em CoT: o efeito bola de neve, onde pequenos desvios de raciocínio se amplificam progressivamente ao longo do processo de pensamento, levando a uma conformidade prejudicial ou a uma recusa excessiva. Esse efeito surge porque os modelos são treinados para imitar scripts de raciocínio perfeitos sem aprender a se autocorrigir. Para abordar essa limitação, propomos o AdvChain, um paradigma de alinhamento que ensina os modelos a se autocorrigir dinamicamente por meio de ajuste adversário em CoT. Nosso método envolve a construção de um conjunto de dados contendo amostras de Tentação-Correção e Hesitação-Correção, onde os modelos aprendem a se recuperar de desvios de raciocínio prejudiciais e cautelas desnecessárias. Experimentos extensivos mostram que o AdvChain melhora significativamente a robustez contra ataques de jailbreak e sequestro de CoT, ao mesmo tempo em que reduz substancialmente a recusa excessiva em prompts benignos, alcançando um equilíbrio superior entre segurança e utilidade sem comprometer as capacidades de raciocínio. Nosso trabalho estabelece uma nova direção para a construção de modelos de raciocínio mais robustos e confiáveis.
English
Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in
complex problem-solving through Chain-of-Thought (CoT) reasoning. However, the
multi-step nature of CoT introduces new safety challenges that extend beyond
conventional language model alignment. We identify a failure mode in current
safety CoT tuning methods: the snowball effect, where minor reasoning
deviations progressively amplify throughout the thought process, leading to
either harmful compliance or excessive refusal. This effect stems from models
being trained to imitate perfect reasoning scripts without learning to
self-correct. To address this limitation, we propose AdvChain, an alignment
paradigm that teaches models dynamic self-correction through adversarial CoT
tuning. Our method involves constructing a dataset containing
Temptation-Correction and Hesitation-Correction samples, where models learn to
recover from harmful reasoning drifts and unnecessary cautions. Extensive
experiments show that AdvChain significantly enhances robustness against
jailbreak attacks and CoT hijacking while substantially reducing over-refusal
on benign prompts, achieving a superior safety-utility balance without
compromising reasoning capabilities. Our work establishes a new direction for
building more robust and reliable reasoning models.