DiffCoT: 大規模言語モデルにおける拡散スタイルの連鎖的思考推論
DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
January 7, 2026
著者: Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, Jing Ma
cs.AI
要旨
Chain-of-Thought(CoT)推論は大規模言語モデルにおける多段階の数学的問題解決を改善するが、初期の誤りが自己回帰的復号を通じて不可逆的に伝播するため、エクスポージャーバイアスと誤差蓄積に対して脆弱である。本研究では、CoT推論を反復的なノイズ除去プロセスとして再定式化するDiffCoTを提案する。DiffCoTはスライディングウィンドウ機構により推論ステップレベルで拡散原理を統合し、トークンレベルの自己回帰を保ちつつ中間ステップの統合的生成と遡及的修正を実現する。因果的一貫性を維持するため、推論連鎖の時間的構造を尊重する因果的拡散ノイズスケジューリングをさらに導入する。多様なモデルバックボーンにわたる3つの多段階CoT推論ベンチマークでの大規模実験により、DiffCoTが既存のCoT選好最適化手法を一貫して上回り、CoT推論におけるロバスト性と誤り修正能力の向上をもたらすことが実証された。
English
Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.