DiffCoT: Razonamiento en Cadena de Pensamiento con Estilo de Difusión en los Modelos de Lenguaje Grandes
DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
January 7, 2026
Autores: Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, Jing Ma
cs.AI
Resumen
El razonamiento de Cadena de Pensamiento (CoT) mejora la resolución de problemas matemáticos multi-etapa en modelos de lenguaje grandes, pero sigue siendo vulnerable al sesgo de exposición y a la acumulación de errores, ya que los errores tempranos se propagan irreversiblemente a través de la decodificación autoregresiva. En este trabajo, proponemos DiffCoT, un marco CoT de estilo difusivo que reformula el razonamiento CoT como un proceso iterativo de eliminación de ruido. DiffCoT integra principios de difusión a nivel de paso de razonamiento mediante un mecanismo de ventana deslizante, permitiendo la generación unificada y la corrección retrospectiva de pasos intermedios mientras preserva la autoregresión a nivel de token. Para mantener la consistencia causal, introducimos además un programa de ruido de difusión causal que respeta la estructura temporal de las cadenas de razonamiento. Experimentos exhaustivos en tres benchmarks de razonamiento CoT multi-etapa con diversos modelos base demuestran que DiffCoT supera consistentemente a los métodos existentes de optimización de preferencias CoT, logrando una mayor robustez y capacidad de corrección de errores en el razonamiento CoT.
English
Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.