ChatPaper.aiChatPaper

El Tiempo es una Característica: Aprovechando la Dinámica Temporal en Modelos de Lenguaje Basados en Difusión

Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

August 12, 2025
Autores: Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen
cs.AI

Resumen

Los modelos de lenguaje de difusión a gran escala (dLLMs) generan texto a través de un proceso iterativo de eliminación de ruido, aunque las estrategias de decodificación actuales descartan predicciones intermedias ricas en favor de la salida final. Nuestro trabajo revela un fenómeno crítico, la oscilación temporal, donde las respuestas correctas a menudo emergen en el proceso intermedio, pero son sobrescritas en pasos posteriores de eliminación de ruido. Para abordar este problema, introducimos dos métodos complementarios que explotan la consistencia temporal: 1) Votación de Autoconsistencia Temporal, una estrategia de decodificación en tiempo de prueba que no requiere entrenamiento y agrega predicciones a lo largo de los pasos de eliminación de ruido para seleccionar la salida más consistente; y 2) un método posterior al entrenamiento denominado Refuerzo de Consistencia Temporal, que utiliza la Entropía Semántica Temporal (TSE), una medida de estabilidad semántica en las predicciones intermedias, como señal de recompensa para fomentar generaciones estables. Los resultados empíricos en múltiples benchmarks demuestran la efectividad de nuestro enfoque. Utilizando únicamente la recompensa negativa de TSE, observamos una mejora promedio notable del 24.7% en el conjunto de datos Countdown sobre un dLLM existente. Combinado con la recompensa de precisión, logramos ganancias absolutas del 2.0% en GSM8K, 4.3% en MATH500, 6.6% en SVAMP y 25.3% en Countdown, respectivamente. Nuestros hallazgos subrayan el potencial no explotado de la dinámica temporal en los dLLMs y ofrecen dos herramientas simples pero efectivas para aprovecharlas.
English
Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decoding strategies discard rich intermediate predictions in favor of the final output. Our work here reveals a critical phenomenon, temporal oscillation, where correct answers often emerge in the middle process, but are overwritten in later denoising steps. To address this issue, we introduce two complementary methods that exploit temporal consistency: 1) Temporal Self-Consistency Voting, a training-free, test-time decoding strategy that aggregates predictions across denoising steps to select the most consistent output; and 2) a post-training method termed Temporal Consistency Reinforcement, which uses Temporal Semantic Entropy (TSE), a measure of semantic stability across intermediate predictions, as a reward signal to encourage stable generations. Empirical results across multiple benchmarks demonstrate the effectiveness of our approach. Using the negative TSE reward alone, we observe a remarkable average improvement of 24.7% on the Countdown dataset over an existing dLLM. Combined with the accuracy reward, we achieve absolute gains of 2.0% on GSM8K, 4.3% on MATH500, 6.6% on SVAMP, and 25.3% on Countdown, respectively. Our findings underscore the untapped potential of temporal dynamics in dLLMs and offer two simple yet effective tools to harness them.
PDF302August 13, 2025