DiffCoT: Diffusie-gestileerde keten-van-redeneren in grote taalmodellen

Samenvatting

Chain-of-Thought (CoT)-redenering verbetert de oplossing van meerstaps wiskundige problemen in grote taalmodellen, maar blijft kwetsbaar voor exposure bias en foutaccumulatie, waarbij vroege fouten onomkeerbaar doorheen het autoregressieve decoderingsproces voortplanten. In dit werk stellen we DiffCoT voor, een CoT-raamwerk in diffusiestijl dat CoT-redenering herformuleert als een iteratief denoisingsproces. DiffCoT integreert diffusieprincipes op het niveau van de redeneerstappen via een sliding-window-mechanisme, waardoor een verenigde generatie en retrospectieve correctie van tussenstappen mogelijk is, terwijl token-level autoregressie behouden blijft. Om causale consistentie te waarborgen, introduceren we verder een causaal diffusieruischema dat de temporele structuur van redeneerketens respecteert. Uitgebreide experimenten op drie meerstaps CoT-redeneerbenchmarks, uitgevoerd op diverse modelarchitecturen, tonen aan dat DiffCoT consistent beter presteert dan bestaande CoT-voorkeursoptimalisatiemethoden, wat resulteert in een verbeterde robuustheid en foutcorrectiecapaciteit in CoT-redenering.

English

Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.

DiffCoT: Diffusie-gestileerde keten-van-redeneren in grote taalmodellen

DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

Samenvatting

Support