Diffusie-taalmodellen kennen het antwoord al voor het decoderen.
Diffusion Language Models Know the Answer Before Decoding
August 27, 2025
Auteurs: Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu
cs.AI
Samenvatting
Diffusie-taalmmodellen (DLM's) zijn recent naar voren gekomen als een alternatief voor autoregressieve benaderingen, waarbij ze parallelle sequentiegeneratie en flexibele tokenvolgordes bieden. Hun inferentie blijft echter trager dan die van autoregressieve modellen, voornamelijk vanwege de kosten van bidirectionele aandacht en het grote aantal verfijningsstappen dat nodig is voor hoogwaardige uitvoer. In dit werk belichten en benutten we een over het hoofd gezien eigenschap van DLM's: vroege antwoordconvergentie. In veel gevallen kan het juiste antwoord intern worden geïdentificeerd halverwege de stappen, nog voor de laatste decodeerstap, zowel onder semi-autoregressieve als willekeurige remaskingschema's. Op GSM8K en MMLU kan bijvoorbeeld respectievelijk tot 97% en 99% van de gevallen correct worden gedecodeerd met slechts de helft van de verfijningsstappen. Op basis van deze observatie introduceren we Prophet, een trainingsvrij snel decodeerparadigma dat vroege commit-decodering mogelijk maakt. Specifiek beslist Prophet dynamisch of het verfijnen moet worden voortgezet of dat er "all-in" moet worden gegaan (d.w.z. alle resterende tokens in één stap decoderen), waarbij het vertrouwensverschil tussen de top-2 voorspellingskandidaten als criterium wordt gebruikt. Het integreert naadloos in bestaande DLM-implementaties, veroorzaakt verwaarloosbare overhead en vereist geen aanvullende training. Empirische evaluaties van LLaDA-8B en Dream-7B over meerdere taken laten zien dat Prophet het aantal decodeerstappen tot wel 3,4x vermindert, terwijl de hoge generatiekwaliteit behouden blijft. Deze resultaten herformuleren DLM-decodering als een probleem van wanneer te stoppen met bemonsteren, en tonen aan dat vroege decodeerconvergentie een eenvoudig maar krachtig mechanisme biedt voor het versnellen van DLM-inferentie, complementair aan bestaande snelheidstechnieken. Onze code is publiekelijk beschikbaar op https://github.com/pixeli99/Prophet.
English
Diffusion language models (DLMs) have recently emerged as an alternative to
autoregressive approaches, offering parallel sequence generation and flexible
token orders. However, their inference remains slower than that of
autoregressive models, primarily due to the cost of bidirectional attention and
the large number of refinement steps required for high quality outputs. In this
work, we highlight and leverage an overlooked property of DLMs early answer
convergence: in many cases, the correct answer can be internally identified by
half steps before the final decoding step, both under semi-autoregressive and
random remasking schedules. For example, on GSM8K and MMLU, up to 97% and 99%
of instances, respectively, can be decoded correctly using only half of the
refinement steps. Building on this observation, we introduce Prophet, a
training-free fast decoding paradigm that enables early commit decoding.
Specifically, Prophet dynamically decides whether to continue refinement or to
go "all-in" (i.e., decode all remaining tokens in one step), using the
confidence gap between the top-2 prediction candidates as the criterion. It
integrates seamlessly into existing DLM implementations, incurs negligible
overhead, and requires no additional training. Empirical evaluations of
LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the
number of decoding steps by up to 3.4x while preserving high generation
quality. These results recast DLM decoding as a problem of when to stop
sampling, and demonstrate that early decode convergence provides a simple yet
powerful mechanism for accelerating DLM inference, complementary to existing
speedup techniques. Our code is publicly available at
https://github.com/pixeli99/Prophet.