Les modèles de langage par diffusion connaissent la réponse avant le décodage.
Diffusion Language Models Know the Answer Before Decoding
August 27, 2025
papers.authors: Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu
cs.AI
papers.abstract
Les modèles de langage par diffusion (DLMs) ont récemment émergé comme une alternative aux approches autorégressives, offrant une génération de séquences parallèle et des ordres de tokens flexibles. Cependant, leur inférence reste plus lente que celle des modèles autorégressifs, principalement en raison du coût de l'attention bidirectionnelle et du grand nombre d'étapes de raffinement nécessaires pour obtenir des sorties de haute qualité. Dans ce travail, nous mettons en lumière et exploitons une propriété négligée des DLMs : la convergence précoce des réponses. Dans de nombreux cas, la réponse correcte peut être identifiée en interne à mi-parcours avant l'étape de décodage finale, que ce soit sous des schémas semi-autorégressifs ou de remasquage aléatoire. Par exemple, sur GSM8K et MMLU, jusqu'à 97 % et 99 % des instances, respectivement, peuvent être décodées correctement en utilisant seulement la moitié des étapes de raffinement. En nous appuyant sur cette observation, nous introduisons Prophet, un paradigme de décodage rapide sans entraînement qui permet un décodage avec engagement précoce. Plus précisément, Prophet décide dynamiquement de poursuivre le raffinement ou de "tout miser" (c'est-à-dire décoder tous les tokens restants en une seule étape), en utilisant l'écart de confiance entre les deux meilleurs candidats de prédiction comme critère. Il s'intègre de manière transparente dans les implémentations existantes des DLMs, entraîne une surcharge négligeable et ne nécessite aucun entraînement supplémentaire. Les évaluations empiriques de LLaDA-8B et Dream-7B sur plusieurs tâches montrent que Prophet réduit le nombre d'étapes de décodage jusqu'à 3,4 fois tout en préservant une qualité de génération élevée. Ces résultats redéfinissent le décodage des DLMs comme un problème de décision sur le moment d'arrêter l'échantillonnage et démontrent que la convergence précoce du décodage fournit un mécanisme simple mais puissant pour accélérer l'inférence des DLMs, complémentaire aux techniques existantes d'accélération. Notre code est disponible publiquement à l'adresse https://github.com/pixeli99/Prophet.
English
Diffusion language models (DLMs) have recently emerged as an alternative to
autoregressive approaches, offering parallel sequence generation and flexible
token orders. However, their inference remains slower than that of
autoregressive models, primarily due to the cost of bidirectional attention and
the large number of refinement steps required for high quality outputs. In this
work, we highlight and leverage an overlooked property of DLMs early answer
convergence: in many cases, the correct answer can be internally identified by
half steps before the final decoding step, both under semi-autoregressive and
random remasking schedules. For example, on GSM8K and MMLU, up to 97% and 99%
of instances, respectively, can be decoded correctly using only half of the
refinement steps. Building on this observation, we introduce Prophet, a
training-free fast decoding paradigm that enables early commit decoding.
Specifically, Prophet dynamically decides whether to continue refinement or to
go "all-in" (i.e., decode all remaining tokens in one step), using the
confidence gap between the top-2 prediction candidates as the criterion. It
integrates seamlessly into existing DLM implementations, incurs negligible
overhead, and requires no additional training. Empirical evaluations of
LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the
number of decoding steps by up to 3.4x while preserving high generation
quality. These results recast DLM decoding as a problem of when to stop
sampling, and demonstrate that early decode convergence provides a simple yet
powerful mechanism for accelerating DLM inference, complementary to existing
speedup techniques. Our code is publicly available at
https://github.com/pixeli99/Prophet.