Weniger Entwurf, mehr Abruf: Hybride Baumkonstruktion für spekulative Dekodierung

Zusammenfassung

Spekulatives Dekodieren (SD) beschleunigt die Inferenz großer Sprachmodelle durch ein Entwurf-und-Prüf-Paradigma. Um die Akzeptanzrate zu maximieren, konstruieren neuere Methoden umfangreiche Entwurfsbäume, die jedoch leider erheblichen VRAM-Bandbreiten- und Rechenaufwand verursachen und so die End-to-End-Beschleunigung limitieren. Während ein dynamisches Tiefen-Pruning diese Latenz verringern kann, indem es marginale Verzweigungen entfernt, verwirft es auch potenziell gültige Kandidaten und verhindert so, dass die Akzeptanzrate die Obergrenze dichter Bäume erreicht. In dieser Arbeit identifizieren wir eine kritische Möglichkeit der Ressourcenzuweisung: Der Übergang vom dichten zum beschnittenen Entwurf gibt erhebliches Rechenbudget frei. Um diesen Pareto-Kompromiss zu durchbrechen, führen wir Graft ein, ein Kompensationsrahmenwerk, das Pruning und Retrieval als sich gegenseitig verstärkende Operationen koppelt. Pruning stellt ausreichend Budget für das Retrieval bereit, während das Retrieval den durch Pruning verursachten Coverage-Verlust ausgleicht und die akzeptierte Länge wiederherstellt. Durch einen sequenziellen `Prune-then-Graft`-Mechanismus fügt Graft hochprädiktive, abgerufene Token an die durch Pruning geöffneten Positionen ein und füllt so die topologischen Lücken mit nahezu null Overhead. Graft ist vollständig trainingsfrei und verlustfrei. Umfassende Evaluierungen zeigen, dass Graft in praktischen Bereitstellungsszenarien, einschließlich Kurzkontext-Generierung, Langkontext-Generierung und großskaligen Modellen, eine neue Pareto-Grenze etabliert. Bei Kurzkontext-Benchmarks erreicht es eine bis zu 5,41-fache Beschleunigung und verbessert die durchschnittliche Beschleunigung gegenüber EAGLE-3 um bis zu 21,8% beim großskaligen Qwen3-235B. Wir stellen auch eine vorläufige Untersuchung zur Anwendung von Graft auf das DFlash-artige Block-Entwurfs-Paradigma vor, die erste Belege und Einsichten für die Erweiterung des Pfropfens über autoregressive Entwurfsbäume hinaus liefert.

English

Speculative decoding (SD) accelerates large language model inference by leveraging a draft-then-verify paradigm. To maximize the acceptance rate, recent methods construct expansive draft trees, which unfortunately incur severe VRAM bandwidth and computational overheads that bottleneck end-to-end speedups. While dynamic-depth pruning can reduce this latency by removing marginal branches, it also discards potentially valid candidates, preventing the acceptance rate from reaching the upper bound of dense trees. In this paper, we identify a critical opportunity in resource allocation: the transition from dense to pruned drafting frees up significant computational budget. To break this Pareto tradeoff, we introduce Graft, a compensation framework that couples pruning and retrieval as mutually reinforcing operations. Pruning supplies sufficient budget for retrieval, while retrieval compensates for pruning-induced coverage loss and recovers accepted length. By employing a sequential `prune-then-graft' mechanism, Graft attaches highly predictive retrieved tokens into positions opened by pruning, filling the topological gaps with near-zero overhead. Graft is entirely training-free and lossless. Comprehensive evaluations show that Graft establishes a new Pareto frontier across practical deployment settings, including short-context generation, long-context generation, and large-scale models. On short-context benchmarks, it achieves up to 5.41times speedup and improves average speedup over EAGLE-3 by up to 21.8% on the large-scale Qwen3-235B. We also provide a preliminary exploration of applying Graft to the DFlash-style block drafting paradigm, offering initial evidence and insights for extending grafting beyond autoregressive draft trees.