DiffCoT: Цепь рассуждений в стиле диффузии в больших языковых моделях
DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
January 7, 2026
Авторы: Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, Jing Ma
cs.AI
Аннотация
Метод рассуждений «цепочка мыслей» (CoT) улучшает решение многошаговых математических задач в больших языковых моделях, но остаётся уязвимым к смещению распределения и накоплению ошибок, поскольку ранние ошибки необратимо распространяются в процессе авторегрессионного декодирования. В данной работе мы предлагаем DiffCoT — фреймворк CoT в стиле диффузии, который переформулирует CoT-рассуждения как итеративный процесс шумоподавления. DiffCoT интегрирует принципы диффузии на уровне шагов рассуждения с помощью скользящего окна, позволяя объединить генерацию и ретроспективную коррекцию промежуточных шагов при сохранении авторегрессии на уровне токенов. Для обеспечения причинной согласованности мы дополнительно вводим причинный график зашумления, учитывающий временную структуру цепочек рассуждений. Многочисленные эксперименты на трёх бенчмарках многошаговых CoT-рассуждений с различными модельными архитектурами демонстрируют, что DiffCoT стабильно превосходит существующие методы оптимизации предпочтений для CoT, обеспечивая повышенную устойчивость и способность к коррекции ошибок в CoT-рассуждениях.
English
Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.