Il Tempo è una Caratteristica: Sfruttare le Dinamiche Temporali nei Modelli Linguistici a Diffusione

Abstract

I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) generano testo attraverso un processo iterativo di rimozione del rumore, ma le attuali strategie di decodifica scartano le ricche previsioni intermedie a favore dell'output finale. Il nostro lavoro rivela un fenomeno critico, l'oscillazione temporale, in cui le risposte corrette spesso emergono durante il processo intermedio, ma vengono sovrascritte nei successivi passaggi di rimozione del rumore. Per affrontare questo problema, introduciamo due metodi complementari che sfruttano la consistenza temporale: 1) il Voto di Auto-Consistenza Temporale, una strategia di decodifica in fase di test che non richiede addestramento e aggrega le previsioni attraverso i passaggi di rimozione del rumore per selezionare l'output più consistente; e 2) un metodo post-addestramento denominato Rafforzamento della Consistenza Temporale, che utilizza l'Entropia Semantica Temporale (TSE), una misura della stabilità semantica tra le previsioni intermedie, come segnale di ricompensa per incoraggiare generazioni stabili. I risultati empirici su più benchmark dimostrano l'efficacia del nostro approccio. Utilizzando solo la ricompensa negativa TSE, osserviamo un notevole miglioramento medio del 24,7% sul dataset Countdown rispetto a un dLLM esistente. Combinando la ricompensa per l'accuratezza, otteniamo guadagni assoluti del 2,0% su GSM8K, del 4,3% su MATH500, del 6,6% su SVAMP e del 25,3% su Countdown, rispettivamente. Le nostre scoperte sottolineano il potenziale inesplorato delle dinamiche temporali nei dLLM e offrono due strumenti semplici ma efficaci per sfruttarle.

English

Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decoding strategies discard rich intermediate predictions in favor of the final output. Our work here reveals a critical phenomenon, temporal oscillation, where correct answers often emerge in the middle process, but are overwritten in later denoising steps. To address this issue, we introduce two complementary methods that exploit temporal consistency: 1) Temporal Self-Consistency Voting, a training-free, test-time decoding strategy that aggregates predictions across denoising steps to select the most consistent output; and 2) a post-training method termed Temporal Consistency Reinforcement, which uses Temporal Semantic Entropy (TSE), a measure of semantic stability across intermediate predictions, as a reward signal to encourage stable generations. Empirical results across multiple benchmarks demonstrate the effectiveness of our approach. Using the negative TSE reward alone, we observe a remarkable average improvement of 24.7% on the Countdown dataset over an existing dLLM. Combined with the accuracy reward, we achieve absolute gains of 2.0% on GSM8K, 4.3% on MATH500, 6.6% on SVAMP, and 25.3% on Countdown, respectively. Our findings underscore the untapped potential of temporal dynamics in dLLMs and offer two simple yet effective tools to harness them.

Il Tempo è una Caratteristica: Sfruttare le Dinamiche Temporali nei Modelli Linguistici a Diffusione

Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

Abstract

Support