DiffCoT: Raciocínio em Cadeia de Pensamento com Estilo de Difusão em LLMs

Resumo

O raciocínio Chain-of-Thought (CoT) melhora a resolução de problemas matemáticos multi-etapas em modelos de linguagem grandes, mas permanece vulnerável ao viés de exposição e à acumulação de erros, uma vez que erros iniciais propagam-se irreversivelmente através da decodagem autorregressiva. Neste trabalho, propomos o DiffCoT, uma estrutura CoT de estilo difusão que reformula o raciocínio CoT como um processo iterativo de remoção de ruído. O DiffCoT integra princípios de difusão ao nível da etapa de raciocínio através de um mecanismo de janela deslizante, permitindo a geração unificada e a correção retrospectiva de etapas intermédias, preservando a autorregressão a nível de token. Para manter a consistência causal, introduzimos ainda um esquema de ruído de difusão causal que respeita a estrutura temporal das cadeias de raciocínio. Experiências extensas em três *benchmarks* de raciocínio CoT multi-etapas, utilizando diversas arquiteturas de modelos, demonstram que o DiffCoT supera consistentemente os métodos existentes de otimização de preferência CoT, resultando numa maior robustez e capacidade de correção de erros no raciocínio CoT.

English

Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.

DiffCoT: Raciocínio em Cadeia de Pensamento com Estilo de Difusão em LLMs

DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

Resumo

Support