Los Modelos de Lenguaje de Difusión Conocen la Respuesta Antes de la Decodificación

Resumen

Los modelos de lenguaje de difusión (DLMs, por sus siglas en inglés) han surgido recientemente como una alternativa a los enfoques autorregresivos, ofreciendo generación paralela de secuencias y órdenes de tokens flexibles. Sin embargo, su inferencia sigue siendo más lenta que la de los modelos autorregresivos, principalmente debido al costo de la atención bidireccional y al gran número de pasos de refinamiento necesarios para obtener salidas de alta calidad. En este trabajo, destacamos y aprovechamos una propiedad pasada por alto de los DLMs: la convergencia temprana de respuestas. En muchos casos, la respuesta correcta puede identificarse internamente en la mitad de los pasos antes del paso de decodificación final, tanto bajo esquemas semi-autorregresivos como de remuestreo aleatorio. Por ejemplo, en GSM8K y MMLU, hasta el 97% y el 99% de las instancias, respectivamente, pueden decodificarse correctamente utilizando solo la mitad de los pasos de refinamiento. Basándonos en esta observación, presentamos Prophet, un paradigma de decodificación rápida sin entrenamiento que permite la decodificación temprana con compromiso. Específicamente, Prophet decide dinámicamente si continuar con el refinamiento o "ir a por todas" (es decir, decodificar todos los tokens restantes en un solo paso), utilizando la brecha de confianza entre los dos principales candidatos de predicción como criterio. Se integra sin problemas en las implementaciones existentes de DLMs, incurre en un sobrecosto insignificante y no requiere entrenamiento adicional. Las evaluaciones empíricas de LLaDA-8B y Dream-7B en múltiples tareas muestran que Prophet reduce el número de pasos de decodificación hasta en 3.4 veces, manteniendo una alta calidad de generación. Estos resultados replantean la decodificación de DLMs como un problema de cuándo detener el muestreo y demuestran que la convergencia temprana en la decodificación proporciona un mecanismo simple pero poderoso para acelerar la inferencia de DLMs, complementando las técnicas existentes de aceleración. Nuestro código está disponible públicamente en https://github.com/pixeli99/Prophet.

English

Diffusion language models (DLMs) have recently emerged as an alternative to autoregressive approaches, offering parallel sequence generation and flexible token orders. However, their inference remains slower than that of autoregressive models, primarily due to the cost of bidirectional attention and the large number of refinement steps required for high quality outputs. In this work, we highlight and leverage an overlooked property of DLMs early answer convergence: in many cases, the correct answer can be internally identified by half steps before the final decoding step, both under semi-autoregressive and random remasking schedules. For example, on GSM8K and MMLU, up to 97% and 99% of instances, respectively, can be decoded correctly using only half of the refinement steps. Building on this observation, we introduce Prophet, a training-free fast decoding paradigm that enables early commit decoding. Specifically, Prophet dynamically decides whether to continue refinement or to go "all-in" (i.e., decode all remaining tokens in one step), using the confidence gap between the top-2 prediction candidates as the criterion. It integrates seamlessly into existing DLM implementations, incurs negligible overhead, and requires no additional training. Empirical evaluations of LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the number of decoding steps by up to 3.4x while preserving high generation quality. These results recast DLM decoding as a problem of when to stop sampling, and demonstrate that early decode convergence provides a simple yet powerful mechanism for accelerating DLM inference, complementary to existing speedup techniques. Our code is publicly available at https://github.com/pixeli99/Prophet.

Los Modelos de Lenguaje de Difusión Conocen la Respuesta Antes de la Decodificación

Diffusion Language Models Know the Answer Before Decoding

Resumen

Support