DiffCoT: Diffusionsgestütztes Chain-of-Thought-Denken in großen Sprachmodellen
DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
January 7, 2026
papers.authors: Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, Jing Ma
cs.AI
papers.abstract
Chain-of-Thought (CoT)-Reasoning verbessert die schrittweise Lösung mathematischer Probleme in großen Sprachmodellen, bleibt jedoch anfällig für Exposure Bias und Fehlerakkumulation, da sich frühe Fehler während des autoregressiven Decodierens irreversibel fortsetzen. In dieser Arbeit schlagen wir DiffCoT vor, ein CoT-Framework im Stil von Diffusionsmodellen, das CoT-Reasoning als iterativen Entrauschungsprozess reformuliert. DiffCoT integriert Diffusionsprinzipien auf Ebene der Reasoning-Schritte über einen Sliding-Window-Mechanismus, wodurch eine einheitliche Generierung und nachträgliche Korrektur von Zwischenschritten bei Beibehaltung der Token-level-Autoregression ermöglicht wird. Um kausale Konsistenz zu gewährleisten, führen wir außerdem einen kausalen Diffusions-Rauschplan ein, der die zeitliche Struktur von Reasoning-Ketten berücksichtigt. Umfangreiche Experimente auf drei Benchmarks für mehrstufiges CoT-Reasoning mit verschiedenen Modellarchitekturen zeigen, dass DiffCoT bestehende CoT-Preferenzoptimierungsmethoden durchgängig übertrifft und eine verbesserte Robustheit sowie Fehlerkorrekturfähigkeit im CoT-Reasoning erzielt.
English
Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.