Il Tempo è una Caratteristica: Sfruttare le Dinamiche Temporali nei Modelli Linguistici a Diffusione
Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
August 12, 2025
Autori: Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen
cs.AI
Abstract
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) generano testo attraverso un processo iterativo di rimozione del rumore, ma le attuali strategie di decodifica scartano le ricche previsioni intermedie a favore dell'output finale. Il nostro lavoro rivela un fenomeno critico, l'oscillazione temporale, in cui le risposte corrette spesso emergono durante il processo intermedio, ma vengono sovrascritte nei successivi passaggi di rimozione del rumore. Per affrontare questo problema, introduciamo due metodi complementari che sfruttano la consistenza temporale: 1) il Voto di Auto-Consistenza Temporale, una strategia di decodifica in fase di test che non richiede addestramento e aggrega le previsioni attraverso i passaggi di rimozione del rumore per selezionare l'output più consistente; e 2) un metodo post-addestramento denominato Rafforzamento della Consistenza Temporale, che utilizza l'Entropia Semantica Temporale (TSE), una misura della stabilità semantica tra le previsioni intermedie, come segnale di ricompensa per incoraggiare generazioni stabili. I risultati empirici su più benchmark dimostrano l'efficacia del nostro approccio. Utilizzando solo la ricompensa negativa TSE, osserviamo un notevole miglioramento medio del 24,7% sul dataset Countdown rispetto a un dLLM esistente. Combinando la ricompensa per l'accuratezza, otteniamo guadagni assoluti del 2,0% su GSM8K, del 4,3% su MATH500, del 6,6% su SVAMP e del 25,3% su Countdown, rispettivamente. Le nostre scoperte sottolineano il potenziale inesplorato delle dinamiche temporali nei dLLM e offrono due strumenti semplici ma efficaci per sfruttarle.
English
Diffusion large language models (dLLMs) generate text through iterative
denoising, yet current decoding strategies discard rich intermediate
predictions in favor of the final output. Our work here reveals a critical
phenomenon, temporal oscillation, where correct answers often emerge in the
middle process, but are overwritten in later denoising steps. To address this
issue, we introduce two complementary methods that exploit temporal
consistency: 1) Temporal Self-Consistency Voting, a training-free, test-time
decoding strategy that aggregates predictions across denoising steps to select
the most consistent output; and 2) a post-training method termed Temporal
Consistency Reinforcement, which uses Temporal Semantic Entropy (TSE), a
measure of semantic stability across intermediate predictions, as a reward
signal to encourage stable generations. Empirical results across multiple
benchmarks demonstrate the effectiveness of our approach. Using the negative
TSE reward alone, we observe a remarkable average improvement of 24.7% on the
Countdown dataset over an existing dLLM. Combined with the accuracy reward, we
achieve absolute gains of 2.0% on GSM8K, 4.3% on MATH500, 6.6% on SVAMP, and
25.3% on Countdown, respectively. Our findings underscore the untapped
potential of temporal dynamics in dLLMs and offer two simple yet effective
tools to harness them.