Moins d'ébauche, plus de récupération : construction d'arbre hybride pour le décodage spéculatif

Résumé

Le décodage spéculatif (DS) accélère l'inférence des grands modèles de langage en exploitant un paradigme d'ébauche puis vérification. Pour maximiser le taux d'acceptation, les méthodes récentes construisent des arbres d'ébauche étendus, ce qui entraîne malheureusement de lourdes surcharges en bande passante VRAM et en calcul, limitant les accélérations de bout en bout. Un élagage à profondeur dynamique peut réduire cette latence en supprimant les branches marginales, mais il écarte également des candidats potentiellement valides, empêchant le taux d'acceptation d'atteindre la borne supérieure des arbres denses. Dans cet article, nous identifions une opportunité cruciale dans l'allocation des ressources : le passage d'une ébauche dense à une ébauche élaguée libère un budget de calcul significatif. Pour briser ce compromis de Pareto, nous introduisons Greffe, un cadre de compensation qui couple élagage et récupération comme des opérations mutuellement renforcées. L'élagage fournit un budget suffisant pour la récupération, tandis que la récupération compense la perte de couverture induite par l'élagage et récupère la longueur acceptée. En employant un mécanisme séquentiel « élaguer puis greffer », Greffe attache des tokens hautement prédictifs récupérés aux positions libérées par l'élagage, comblant les lacunes topologiques avec un surcoût quasi nul. Greffe est entièrement sans entraînement et sans perte. Des évaluations complètes montrent que Greffe établit une nouvelle frontière de Pareto dans diverses configurations de déploiement pratiques, notamment la génération en contexte court, la génération en contexte long et les modèles à grande échelle. Sur les benchmarks à contexte court, il atteint une accélération jusqu'à 5,41 fois et améliore l'accélération moyenne par rapport à EAGLE-3 jusqu'à 21,8 % sur le modèle à grande échelle Qwen3-235B. Nous fournissons également une exploration préliminaire de l'application de Greffe au paradigme d'ébauche par blocs de style DFlash, offrant des preuves et des perspectives initiales pour étendre la greffe au-delà des arbres d'ébauche autorégressifs.

English

Speculative decoding (SD) accelerates large language model inference by leveraging a draft-then-verify paradigm. To maximize the acceptance rate, recent methods construct expansive draft trees, which unfortunately incur severe VRAM bandwidth and computational overheads that bottleneck end-to-end speedups. While dynamic-depth pruning can reduce this latency by removing marginal branches, it also discards potentially valid candidates, preventing the acceptance rate from reaching the upper bound of dense trees. In this paper, we identify a critical opportunity in resource allocation: the transition from dense to pruned drafting frees up significant computational budget. To break this Pareto tradeoff, we introduce Graft, a compensation framework that couples pruning and retrieval as mutually reinforcing operations. Pruning supplies sufficient budget for retrieval, while retrieval compensates for pruning-induced coverage loss and recovers accepted length. By employing a sequential `prune-then-graft' mechanism, Graft attaches highly predictive retrieved tokens into positions opened by pruning, filling the topological gaps with near-zero overhead. Graft is entirely training-free and lossless. Comprehensive evaluations show that Graft establishes a new Pareto frontier across practical deployment settings, including short-context generation, long-context generation, and large-scale models. On short-context benchmarks, it achieves up to 5.41times speedup and improves average speedup over EAGLE-3 by up to 21.8% on the large-scale Qwen3-235B. We also provide a preliminary exploration of applying Graft to the DFlash-style block drafting paradigm, offering initial evidence and insights for extending grafting beyond autoregressive draft trees.