Beschleunigung von spekulativer Decodierung mit Block-Diffusion-Draft-Bäumen

Zusammenfassung

Spekulatives Decoding beschleunigt autoregressive Sprachmodelle, indem ein leichtgewichtiger "Drafter" verwendet wird, um mehrere zukünftige Token vorzuschlagen, die das Zielmodell dann parallel verifiziert. DFlash zeigt, dass ein Block-Diffusion-Drafter einen gesamten Entwurfsblock in einem einzigen Vorwärtsdurchlauf erzeugen und state-of-the-art Leistung beim spekulativen Decoding erzielen kann, wobei es starke autoregressive Drafter wie EAGLE-3 übertrifft. Das grundlegende DFlash-Verfahren ("Vanilla DFlash") verifiziert jedoch pro Runde nur eine einzige vorgeschlagene Trajektorie, was die akzeptierte Länge potenziell begrenzt. Wir stellen DDTree (Diffusion Draft Tree) vor, eine Methode, die direkt aus den positionsspezifischen Verteilungen eines Block-Diffusion-Drafters einen Entwurfsbaum konstruiert. Unter einem festen Knotenbudget verwendet DDTree einen einfachen Best-First-Heap-Algorithmus, um die Fortsetzungen auszuwählen, die mit der höchsten Wahrscheinlichkeit gemäß einer vom Entwurfsmodell definierten Schätzfunktion ("Surrogate") mit dem Zielmodell übereinstimmen. Der resultierende Baum wird effizient in einem einzigen Vorwärtsdurchlauf des Zielmodells unter Verwendung einer "Ancestor-Only"-Attention-Maske verifiziert. Da DDTree auf DFlash aufbaut, einem führenden Entwurfsmodell für spekulatives Decoding, positionieren diese Verbesserungen DDTree unter den führenden Ansätzen für spekulatives Decoding.

English

Speculative decoding accelerates autoregressive language models by using a lightweight drafter to propose multiple future tokens, which the target model then verifies in parallel. DFlash shows that a block diffusion drafter can generate an entire draft block in a single forward pass and achieve state-of-the-art speculative decoding performance, outperforming strong autoregressive drafters such as EAGLE-3. Vanilla DFlash, however, still verifies only a single drafted trajectory per round, potentially limiting its acceptance length. We introduce DDTree (Diffusion Draft Tree), a method that constructs a draft tree directly from the per-position distributions of a block diffusion drafter. Under a fixed node budget, DDTree uses a simple best-first heap algorithm to select the continuations that are most likely to match the target model according to a surrogate defined by the draft model's output. The resulting tree is verified efficiently in a single target model forward pass using an ancestor-only attention mask. Because DDTree builds on DFlash, a leading draft model for speculative decoding, these gains place DDTree among the leading approaches to speculative decoding.

Beschleunigung von spekulativer Decodierung mit Block-Diffusion-Draft-Bäumen

Accelerating Speculative Decoding with Block Diffusion Draft Trees

Zusammenfassung

Support