Diffusie-taalmodellen kennen het antwoord al voor het decoderen.

Samenvatting

Diffusie-taalmmodellen (DLM's) zijn recent naar voren gekomen als een alternatief voor autoregressieve benaderingen, waarbij ze parallelle sequentiegeneratie en flexibele tokenvolgordes bieden. Hun inferentie blijft echter trager dan die van autoregressieve modellen, voornamelijk vanwege de kosten van bidirectionele aandacht en het grote aantal verfijningsstappen dat nodig is voor hoogwaardige uitvoer. In dit werk belichten en benutten we een over het hoofd gezien eigenschap van DLM's: vroege antwoordconvergentie. In veel gevallen kan het juiste antwoord intern worden geïdentificeerd halverwege de stappen, nog voor de laatste decodeerstap, zowel onder semi-autoregressieve als willekeurige remaskingschema's. Op GSM8K en MMLU kan bijvoorbeeld respectievelijk tot 97% en 99% van de gevallen correct worden gedecodeerd met slechts de helft van de verfijningsstappen. Op basis van deze observatie introduceren we Prophet, een trainingsvrij snel decodeerparadigma dat vroege commit-decodering mogelijk maakt. Specifiek beslist Prophet dynamisch of het verfijnen moet worden voortgezet of dat er "all-in" moet worden gegaan (d.w.z. alle resterende tokens in één stap decoderen), waarbij het vertrouwensverschil tussen de top-2 voorspellingskandidaten als criterium wordt gebruikt. Het integreert naadloos in bestaande DLM-implementaties, veroorzaakt verwaarloosbare overhead en vereist geen aanvullende training. Empirische evaluaties van LLaDA-8B en Dream-7B over meerdere taken laten zien dat Prophet het aantal decodeerstappen tot wel 3,4x vermindert, terwijl de hoge generatiekwaliteit behouden blijft. Deze resultaten herformuleren DLM-decodering als een probleem van wanneer te stoppen met bemonsteren, en tonen aan dat vroege decodeerconvergentie een eenvoudig maar krachtig mechanisme biedt voor het versnellen van DLM-inferentie, complementair aan bestaande snelheidstechnieken. Onze code is publiekelijk beschikbaar op https://github.com/pixeli99/Prophet.

English

Diffusion language models (DLMs) have recently emerged as an alternative to autoregressive approaches, offering parallel sequence generation and flexible token orders. However, their inference remains slower than that of autoregressive models, primarily due to the cost of bidirectional attention and the large number of refinement steps required for high quality outputs. In this work, we highlight and leverage an overlooked property of DLMs early answer convergence: in many cases, the correct answer can be internally identified by half steps before the final decoding step, both under semi-autoregressive and random remasking schedules. For example, on GSM8K and MMLU, up to 97% and 99% of instances, respectively, can be decoded correctly using only half of the refinement steps. Building on this observation, we introduce Prophet, a training-free fast decoding paradigm that enables early commit decoding. Specifically, Prophet dynamically decides whether to continue refinement or to go "all-in" (i.e., decode all remaining tokens in one step), using the confidence gap between the top-2 prediction candidates as the criterion. It integrates seamlessly into existing DLM implementations, incurs negligible overhead, and requires no additional training. Empirical evaluations of LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the number of decoding steps by up to 3.4x while preserving high generation quality. These results recast DLM decoding as a problem of when to stop sampling, and demonstrate that early decode convergence provides a simple yet powerful mechanism for accelerating DLM inference, complementary to existing speedup techniques. Our code is publicly available at https://github.com/pixeli99/Prophet.

Diffusie-taalmodellen kennen het antwoord al voor het decoderen.

Diffusion Language Models Know the Answer Before Decoding

Samenvatting

Support