DiffCoT : Raisonnement en chaîne de pensée de style diffusion dans les grands modèles de langage
DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
January 7, 2026
papers.authors: Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, Jing Ma
cs.AI
papers.abstract
Le raisonnement par chaîne de pensée (Chain-of-Thought, CoT) améliore la résolution de problèmes mathématiques à étapes multiples dans les grands modèles de langage, mais reste vulnérable au biais d'exposition et à l'accumulation d'erreurs, car les erreurs précoces se propagent de manière irréversible via le décodage autorégressif. Dans ce travail, nous proposons DiffCoT, un cadre CoT de style diffusion qui reformule le raisonnement CoT comme un processus itératif de débruitage. DiffCoT intègre les principes de diffusion au niveau des étapes de raisonnement via un mécanisme de fenêtre glissante, permettant une génération unifiée et une correction rétrospective des étapes intermédiaires tout en préservant l'autorégression au niveau des tokens. Pour maintenir la cohérence causale, nous introduisons en outre un plan de bruit de diffusion causal qui respecte la structure temporelle des chaînes de raisonnement. Des expériences approfondies sur trois benchmarks de raisonnement CoT à étapes multiples, couvrant diverses architectures de modèles, démontrent que DiffCoT surpasse constamment les méthodes existantes d'optimisation des préférences CoT, offrant une robustesse améliorée et une capacité de correction d'erreurs dans le raisonnement CoT.
English
Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.