Modelos de Linguagem de Difusão Sabem a Resposta Antes da Decodificação
Diffusion Language Models Know the Answer Before Decoding
August 27, 2025
Autores: Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu
cs.AI
Resumo
Modelos de linguagem de difusão (DLMs, na sigla em inglês) surgiram recentemente como uma alternativa às abordagens autoregressivas, oferecendo geração paralela de sequências e ordens flexíveis de tokens. No entanto, sua inferência permanece mais lenta do que a dos modelos autoregressivos, principalmente devido ao custo da atenção bidirecional e ao grande número de etapas de refinamento necessárias para obter saídas de alta qualidade. Neste trabalho, destacamos e aproveitamos uma propriedade negligenciada dos DLMs: a convergência precoce de respostas. Em muitos casos, a resposta correta pode ser identificada internamente na metade das etapas antes do passo final de decodificação, tanto em esquemas semi-autoregressivos quanto em remascaramento aleatório. Por exemplo, no GSM8K e no MMLU, até 97% e 99% das instâncias, respectivamente, podem ser decodificadas corretamente usando apenas metade das etapas de refinamento. Com base nessa observação, introduzimos o Prophet, um paradigma de decodificação rápida sem necessidade de treinamento que permite a decodificação com comprometimento precoce. Especificamente, o Prophet decide dinamicamente se deve continuar o refinamento ou "ir com tudo" (ou seja, decodificar todos os tokens restantes em uma única etapa), usando a diferença de confiança entre os dois principais candidatos de predição como critério. Ele se integra perfeitamente às implementações existentes de DLMs, incorre em sobrecarga insignificante e não requer treinamento adicional. Avaliações empíricas do LLaDA-8B e do Dream-7B em várias tarefas mostram que o Prophet reduz o número de etapas de decodificação em até 3,4 vezes, mantendo alta qualidade de geração. Esses resultados reformulam a decodificação de DLMs como um problema de quando parar a amostragem e demonstram que a convergência precoce da decodificação fornece um mecanismo simples, porém poderoso, para acelerar a inferência de DLMs, complementando as técnicas existentes de aceleração. Nosso código está publicamente disponível em https://github.com/pixeli99/Prophet.
English
Diffusion language models (DLMs) have recently emerged as an alternative to
autoregressive approaches, offering parallel sequence generation and flexible
token orders. However, their inference remains slower than that of
autoregressive models, primarily due to the cost of bidirectional attention and
the large number of refinement steps required for high quality outputs. In this
work, we highlight and leverage an overlooked property of DLMs early answer
convergence: in many cases, the correct answer can be internally identified by
half steps before the final decoding step, both under semi-autoregressive and
random remasking schedules. For example, on GSM8K and MMLU, up to 97% and 99%
of instances, respectively, can be decoded correctly using only half of the
refinement steps. Building on this observation, we introduce Prophet, a
training-free fast decoding paradigm that enables early commit decoding.
Specifically, Prophet dynamically decides whether to continue refinement or to
go "all-in" (i.e., decode all remaining tokens in one step), using the
confidence gap between the top-2 prediction candidates as the criterion. It
integrates seamlessly into existing DLM implementations, incurs negligible
overhead, and requires no additional training. Empirical evaluations of
LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the
number of decoding steps by up to 3.4x while preserving high generation
quality. These results recast DLM decoding as a problem of when to stop
sampling, and demonstrate that early decode convergence provides a simple yet
powerful mechanism for accelerating DLM inference, complementary to existing
speedup techniques. Our code is publicly available at
https://github.com/pixeli99/Prophet.