Minder opstellen, meer ophalen: Hybride boomconstructie voor speculatieve decodering

Samenvatting

Speculatief decoderen (SD) versnelt de inferentie van grote taalmodellen door gebruik te maken van een opstellen-dan-verifiëren paradigma. Om de acceptatiegraad te maximaliseren, construeren recente methoden uitgebreide conceptbomen, die helaas leiden tot ernstige VRAM-bandbreedte- en rekenkundige overhead die de end-to-end versnellingen belemmeren. Hoewel dynamische-diepte snoeien deze latentie kan verminderen door marginale takken te verwijderen, verwijdert het ook potentieel geldige kandidaten, waardoor de acceptatiegraad niet de bovengrens van dichte bomen kan bereiken. In dit artikel identificeren we een kritieke kans in resource-toewijzing: de overgang van dicht naar gesnoeid conceptueel werk maakt een aanzienlijk rekenbudget vrij. Om deze Pareto-afweging te doorbreken, introduceren we Graft, een compensatiekader dat snoeien en ophalen koppelt als elkaar versterkende operaties. Snoeien levert voldoende budget voor ophalen, terwijl ophalen compenseert voor door snoeien veroorzaakt dekkingsverlies en de geaccepteerde lengte herstelt. Door gebruik te maken van een sequentieel `snoei-dan-transplanteer' mechanisme, voegt Graft zeer voorspellende opgehaalde tokens toe aan posities die door snoeien zijn geopend, waarbij de topologische hiaten worden opgevuld met bijna nul overhead. Graft is volledig trainingsvrij en verliesvrij. Uitgebreide evaluaties tonen aan dat Graft een nieuwe Pareto-grens vestigt in praktische implementatie-instellingen, waaronder kort-context generatie, lang-context generatie en grootschalige modellen. Op kort-context benchmarks behaalt het tot 5,41 keer versnelling en verbetert het de gemiddelde versnelling ten opzichte van EAGLE-3 met tot 21,8% op het grootschalige Qwen3-235B. We bieden ook een voorlopige verkenning van het toepassen van Graft op het DFlash-stijl blokconceptparadigma, met initieel bewijs en inzichten voor het uitbreiden van transplantatie verder dan autoregressieve conceptbomen.

English

Speculative decoding (SD) accelerates large language model inference by leveraging a draft-then-verify paradigm. To maximize the acceptance rate, recent methods construct expansive draft trees, which unfortunately incur severe VRAM bandwidth and computational overheads that bottleneck end-to-end speedups. While dynamic-depth pruning can reduce this latency by removing marginal branches, it also discards potentially valid candidates, preventing the acceptance rate from reaching the upper bound of dense trees. In this paper, we identify a critical opportunity in resource allocation: the transition from dense to pruned drafting frees up significant computational budget. To break this Pareto tradeoff, we introduce Graft, a compensation framework that couples pruning and retrieval as mutually reinforcing operations. Pruning supplies sufficient budget for retrieval, while retrieval compensates for pruning-induced coverage loss and recovers accepted length. By employing a sequential `prune-then-graft' mechanism, Graft attaches highly predictive retrieved tokens into positions opened by pruning, filling the topological gaps with near-zero overhead. Graft is entirely training-free and lossless. Comprehensive evaluations show that Graft establishes a new Pareto frontier across practical deployment settings, including short-context generation, long-context generation, and large-scale models. On short-context benchmarks, it achieves up to 5.41times speedup and improves average speedup over EAGLE-3 by up to 21.8% on the large-scale Qwen3-235B. We also provide a preliminary exploration of applying Graft to the DFlash-style block drafting paradigm, offering initial evidence and insights for extending grafting beyond autoregressive draft trees.