I modelli linguistici di diffusione conoscono la risposta prima della decodifica

Abstract

I modelli linguistici di diffusione (DLM) sono emersi recentemente come alternativa agli approcci autoregressivi, offrendo una generazione parallela di sequenze e ordini flessibili dei token. Tuttavia, la loro inferenza rimane più lenta rispetto a quella dei modelli autoregressivi, principalmente a causa del costo dell'attenzione bidirezionale e del gran numero di passaggi di raffinamento necessari per ottenere output di alta qualità. In questo lavoro, evidenziamo e sfruttiamo una proprietà trascurata dei DLM: la convergenza precoce della risposta. In molti casi, la risposta corretta può essere identificata internamente a metà dei passaggi prima del passo di decodifica finale, sia con pianificazioni semi-autoregressive che con rimascheramento casuale. Ad esempio, su GSM8K e MMLU, rispettivamente fino al 97% e al 99% delle istanze possono essere decodificate correttamente utilizzando solo la metà dei passaggi di raffinamento. Basandoci su questa osservazione, introduciamo Prophet, un paradigma di decodifica veloce senza addestramento che consente la decodifica con impegno precoce. Nello specifico, Prophet decide dinamicamente se continuare la raffinazione o andare "all-in" (cioè decodificare tutti i token rimanenti in un unico passo), utilizzando il divario di confidenza tra i primi due candidati di previsione come criterio. Si integra perfettamente nelle implementazioni esistenti dei DLM, comporta un overhead trascurabile e non richiede ulteriore addestramento. Le valutazioni empiriche di LLaDA-8B e Dream-7B su più task mostrano che Prophet riduce il numero di passaggi di decodifica fino a 3,4 volte mantenendo un'elevata qualità di generazione. Questi risultati riformulano la decodifica dei DLM come un problema di quando fermare il campionamento e dimostrano che la convergenza precoce della decodifica fornisce un meccanismo semplice ma potente per accelerare l'inferenza dei DLM, complementare alle tecniche esistenti di accelerazione. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/pixeli99/Prophet.

English

Diffusion language models (DLMs) have recently emerged as an alternative to autoregressive approaches, offering parallel sequence generation and flexible token orders. However, their inference remains slower than that of autoregressive models, primarily due to the cost of bidirectional attention and the large number of refinement steps required for high quality outputs. In this work, we highlight and leverage an overlooked property of DLMs early answer convergence: in many cases, the correct answer can be internally identified by half steps before the final decoding step, both under semi-autoregressive and random remasking schedules. For example, on GSM8K and MMLU, up to 97% and 99% of instances, respectively, can be decoded correctly using only half of the refinement steps. Building on this observation, we introduce Prophet, a training-free fast decoding paradigm that enables early commit decoding. Specifically, Prophet dynamically decides whether to continue refinement or to go "all-in" (i.e., decode all remaining tokens in one step), using the confidence gap between the top-2 prediction candidates as the criterion. It integrates seamlessly into existing DLM implementations, incurs negligible overhead, and requires no additional training. Empirical evaluations of LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the number of decoding steps by up to 3.4x while preserving high generation quality. These results recast DLM decoding as a problem of when to stop sampling, and demonstrate that early decode convergence provides a simple yet powerful mechanism for accelerating DLM inference, complementary to existing speedup techniques. Our code is publicly available at https://github.com/pixeli99/Prophet.

I modelli linguistici di diffusione conoscono la risposta prima della decodifica

Diffusion Language Models Know the Answer Before Decoding

Abstract

Support