DiffCoT: Ragionamento a Catena di Pensiero in Stile Diffusione nei Modelli Linguistici di Grande Dimensione

Abstract

Il ragionamento a Catena di Pensiero (CoT) migliora la risoluzione di problemi matematici multi-step nei grandi modelli linguistici, ma rimane vulnerabile al bias di esposizione e all'accumulo di errori, poiché gli sbagli iniziali si propagano in modo irreversibile attraverso il decoding autoregressivo. In questo lavoro, proponiamo DiffCoT, un framework CoT in stile diffusione che riformula il ragionamento CoT come un processo iterativo di rimozione del rumore. DiffCoT integra i principi della diffusione a livello di passo di ragionamento mediante un meccanismo a finestra scorrevole, consentendo la generazione unificata e la correzione retrospettiva dei passi intermedi preservando l'autoregressione a livello di token. Per mantenere la consistenza causale, introduciamo inoltre una pianificazione del rumore di diffusione causale che rispetta la struttura temporale delle catene di ragionamento. Esperimenti estesi su tre benchmark di ragionamento CoT multi-step, condotti su diverse architetture di modelli, dimostrano che DiffCoT supera costantemente i metodi esistenti di ottimizzazione delle preferenze CoT, producendo una maggiore robustezza e capacità di correzione degli errori nel ragionamento CoT.

English

Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.

DiffCoT: Ragionamento a Catena di Pensiero in Stile Diffusione nei Modelli Linguistici di Grande Dimensione

DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

Abstract

Support