Diffusionssprachmodelle kennen die Antwort vor der Dekodierung.

papers.abstract

Diffusionssprachmodelle (DLMs) haben sich kürzlich als Alternative zu autoregressiven Ansätzen etabliert, die parallele Sequenzgenerierung und flexible Token-Reihenfolgen ermöglichen. Allerdings bleibt ihre Inferenz langsamer als die von autoregressiven Modellen, hauptsächlich aufgrund der Kosten für bidirektionale Aufmerksamkeit und der großen Anzahl von Verfeinerungsschritten, die für hochwertige Ausgaben erforderlich sind. In dieser Arbeit beleuchten und nutzen wir eine übersehene Eigenschaft von DLMs, die frühe Antwortkonvergenz: In vielen Fällen kann die korrekte Antwort intern bereits nach der Hälfte der Schritte vor dem finalen Dekodierungsschritt identifiziert werden, sowohl unter semi-autoregressiven als auch unter zufälligen Remasking-Zeitplänen. Zum Beispiel können auf GSM8K und MMLU bis zu 97 % bzw. 99 % der Instanzen korrekt dekodiert werden, indem nur die Hälfte der Verfeinerungsschritte verwendet wird. Aufbauend auf dieser Beobachtung führen wir Prophet ein, ein trainingsfreies schnelles Dekodierungsparadigma, das eine frühe Commit-Dekodierung ermöglicht. Konkret entscheidet Prophet dynamisch, ob die Verfeinerung fortgesetzt oder „alles auf eine Karte gesetzt“ werden soll (d. h. alle verbleibenden Token in einem Schritt dekodiert werden), wobei das Konfidenzintervall zwischen den beiden besten Vorhersagekandidaten als Kriterium dient. Es integriert sich nahtlos in bestehende DLM-Implementierungen, verursacht vernachlässigbaren Overhead und erfordert kein zusätzliches Training. Empirische Auswertungen von LLaDA-8B und Dream-7B über mehrere Aufgaben hinweg zeigen, dass Prophet die Anzahl der Dekodierungsschritte um bis zu das 3,4-fache reduziert, während die hohe Generierungsqualität erhalten bleibt. Diese Ergebnisse stellen die DLM-Dekodierung als ein Problem des richtigen Zeitpunkts für das Stoppen der Stichprobenentnahme dar und demonstrieren, dass die frühe Dekodierungskonvergenz einen einfachen, aber leistungsstarken Mechanismus zur Beschleunigung der DLM-Inferenz bietet, der sich ergänzend zu bestehenden Beschleunigungstechniken verhält. Unser Code ist öffentlich verfügbar unter https://github.com/pixeli99/Prophet.

English

Diffusion language models (DLMs) have recently emerged as an alternative to autoregressive approaches, offering parallel sequence generation and flexible token orders. However, their inference remains slower than that of autoregressive models, primarily due to the cost of bidirectional attention and the large number of refinement steps required for high quality outputs. In this work, we highlight and leverage an overlooked property of DLMs early answer convergence: in many cases, the correct answer can be internally identified by half steps before the final decoding step, both under semi-autoregressive and random remasking schedules. For example, on GSM8K and MMLU, up to 97% and 99% of instances, respectively, can be decoded correctly using only half of the refinement steps. Building on this observation, we introduce Prophet, a training-free fast decoding paradigm that enables early commit decoding. Specifically, Prophet dynamically decides whether to continue refinement or to go "all-in" (i.e., decode all remaining tokens in one step), using the confidence gap between the top-2 prediction candidates as the criterion. It integrates seamlessly into existing DLM implementations, incurs negligible overhead, and requires no additional training. Empirical evaluations of LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the number of decoding steps by up to 3.4x while preserving high generation quality. These results recast DLM decoding as a problem of when to stop sampling, and demonstrate that early decode convergence provides a simple yet powerful mechanism for accelerating DLM inference, complementary to existing speedup techniques. Our code is publicly available at https://github.com/pixeli99/Prophet.

Diffusionssprachmodelle kennen die Antwort vor der Dekodierung.

Diffusion Language Models Know the Answer Before Decoding

papers.abstract

Support