Versnelling van Speculatieve Decodering met Blokdiffusie Conceptstructuren

Samenvatting

Speculatief decoderen versnelt autoregressieve taalmodel(len) door gebruik te maken van een lichtgewicht 'drafter' die meerdere toekomstige tokens voorstelt, die het doelmodel vervolgens parallel verifieert. DFlash toont aan dat een 'block diffusion drafter' een volledig conceptblok in één enkele voorwaartse pass kan genereren en state-of-the-art prestaties bij speculatief decoderen bereikt, waarbij het sterkere autoregressieve drafters zoals EAGLE-3 overtreft. Vanilla DFlash verifieert echter slechts één enkele voorgestelde traject per ronde, wat de acceptatielengte mogelijk beperkt. Wij introduceren DDTree (Diffusion Draft Tree), een methode die een conceptboom direct construeert uit de per-positie verdelingen van een 'block diffusion drafter'. Binnen een vast knooppuntenbudget gebruikt DDTree een eenvoudig 'best-first' heap-algoritme om de voortzettingen te selecteren die volgens een surrogaat, gedefinieerd door de output van het draftmodel, het meest waarschijnlijk overeenkomen met het doelmodel. De resulterende boom wordt efficiënt geverifieerd in één enkele voorwaartse pass van het doelmodel met behulp van een 'ancestor-only' aandachtmasker. Omdat DDTree voortbouwt op DFlash, een toonaangevend draftmodel voor speculatief decoderen, plaatst deze winst DDTree onder de toonaangevende benaderingen voor speculatief decoderen.

English

Speculative decoding accelerates autoregressive language models by using a lightweight drafter to propose multiple future tokens, which the target model then verifies in parallel. DFlash shows that a block diffusion drafter can generate an entire draft block in a single forward pass and achieve state-of-the-art speculative decoding performance, outperforming strong autoregressive drafters such as EAGLE-3. Vanilla DFlash, however, still verifies only a single drafted trajectory per round, potentially limiting its acceptance length. We introduce DDTree (Diffusion Draft Tree), a method that constructs a draft tree directly from the per-position distributions of a block diffusion drafter. Under a fixed node budget, DDTree uses a simple best-first heap algorithm to select the continuations that are most likely to match the target model according to a surrogate defined by the draft model's output. The resulting tree is verified efficiently in a single target model forward pass using an ancestor-only attention mask. Because DDTree builds on DFlash, a leading draft model for speculative decoding, these gains place DDTree among the leading approaches to speculative decoding.

Versnelling van Speculatieve Decodering met Blokdiffusie Conceptstructuren

Accelerating Speculative Decoding with Block Diffusion Draft Trees

Samenvatting

Support