Rascunhe Menos, Recupere Mais: Construção Híbrida de Árvores para Decodificação Especulativa

Resumo

A decodificação especulativa (DE) acelera a inferência de modelos de linguagem de grande porte ao explorar um paradigma de rascunho-depois-verificação. Para maximizar a taxa de aceitação, métodos recentes constroem árvores de rascunho expansivas, que, infelizmente, incorrem em severas sobrecargas computacionais e de largura de banda da VRAM, criando gargalos que limitam as acelerações ponta a ponta. Embora a poda de profundidade dinâmica possa reduzir essa latência ao remover ramos marginais, ela também descarta candidatos potencialmente válidos, impedindo que a taxa de aceitação atinja o limite superior das árvores densas. Neste artigo, identificamos uma oportunidade crítica na alocação de recursos: a transição do rascunho denso para o podado libera um orçamento computacional significativo. Para romper esse tradeoff de Pareto, introduzimos o Graft, uma estrutura de compensação que acopla poda e recuperação como operações mutuamente reforçadoras. A poda fornece orçamento suficiente para a recuperação, enquanto a recuperação compensa a perda de cobertura induzida pela poda e recupera o comprimento aceito. Empregando um mecanismo sequencial de "podar-depois-enxertar", o Graft anexa tokens recuperados altamente preditivos às posições abertas pela poda, preenchendo as lacunas topológicas com sobrecarga quase nula. O Graft é totalmente livre de treinamento e sem perdas. Avaliações abrangentes mostram que o Graft estabelece uma nova fronteira de Pareto em configurações práticas de implantação, incluindo geração de contexto curto, geração de contexto longo e modelos de grande escala. Em benchmarks de contexto curto, ele atinge acelerações de até 5,41 vezes e melhora a aceleração média em relação ao EAGLE-3 em até 21,8% no modelo de grande escala Qwen3-235B. Também fornecemos uma exploração preliminar da aplicação do Graft ao paradigma de rascunho em bloco estilo DFlash, oferecendo evidências iniciais e insights para a extensão do enxerto além das árvores de rascunho autorregressivas.

English

Speculative decoding (SD) accelerates large language model inference by leveraging a draft-then-verify paradigm. To maximize the acceptance rate, recent methods construct expansive draft trees, which unfortunately incur severe VRAM bandwidth and computational overheads that bottleneck end-to-end speedups. While dynamic-depth pruning can reduce this latency by removing marginal branches, it also discards potentially valid candidates, preventing the acceptance rate from reaching the upper bound of dense trees. In this paper, we identify a critical opportunity in resource allocation: the transition from dense to pruned drafting frees up significant computational budget. To break this Pareto tradeoff, we introduce Graft, a compensation framework that couples pruning and retrieval as mutually reinforcing operations. Pruning supplies sufficient budget for retrieval, while retrieval compensates for pruning-induced coverage loss and recovers accepted length. By employing a sequential `prune-then-graft' mechanism, Graft attaches highly predictive retrieved tokens into positions opened by pruning, filling the topological gaps with near-zero overhead. Graft is entirely training-free and lossless. Comprehensive evaluations show that Graft establishes a new Pareto frontier across practical deployment settings, including short-context generation, long-context generation, and large-scale models. On short-context benchmarks, it achieves up to 5.41times speedup and improves average speedup over EAGLE-3 by up to 21.8% on the large-scale Qwen3-235B. We also provide a preliminary exploration of applying Graft to the DFlash-style block drafting paradigm, offering initial evidence and insights for extending grafting beyond autoregressive draft trees.