DiffCoT: 대규모 언어 모델에서의 확산 스타일 사고 연쇄 추론
DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
January 7, 2026
저자: Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, Jing Ma
cs.AI
초록
Chain-of-Thought(CoT) 추론은 대규모 언어 모델의 다단계 수학 문제 해결 능력을 향상시키지만, 초기 오류가 자기회귀 디코딩 과정에서 되돌릴 수 없이 전파되기 때문에 노출 편향과 오류 누적에 취약한 문제가 남아 있습니다. 본 연구에서는 CoT 추론을 반복적인 노이즈 제거 과정으로 재정의하는 확산 기반 CoT 프레임워크인 DiffCoT를 제안합니다. DiffCoT는 슬라이딩 윈도우 메커니즘을 통해 추론 단계 수준에서 확산 원리를 통합하며, 토큰 수준의 자기회귀를 유지하면서 중간 단계의 통합 생성 및 사후 수정을 가능하게 합니다. 인과적 일관성을 유지하기 위해 추론 체인의 시간적 구조를 존중하는 인과적 확산 노이즈 스케줄을 추가로 도입합니다. 다양한 모델 백본에 걸친 세 가지 다단계 CoT 추론 벤치마크에서의 광범위한 실험을 통해 DiffCoT가 기존 CoT 선호도 최적화 방법들을 일관되게 능가하며, CoT 추론에서 향상된 강건성과 오류 수정 능력을 보여줌을 입증합니다.
English
Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.