Domino: Desacoplamento da Modelagem Causal da Geração Autoregressiva de Rascunhos na Decodificação Especulativa

Resumo

A decodificação especulativa acelera a inferência de LLMs ao gerar múltiplos tokens candidatos e verificá-los em paralelo com o modelo alvo. No entanto, sua aceleração prática é limitada pelo compromisso entre a qualidade dos rascunhos e o custo de sua geração: rascunhadores autorregressivos modelam dependências causais entre tokens candidatos, mas incorrem em sobrecarga sequencial, enquanto rascunhadores paralelos reduzem o custo de geração, mas enfraquecem a modelagem de dependências intra-bloco. Neste artigo, propomos o Domino, uma estrutura de decodificação especulativa que desacopla a modelagem de dependências causais da execução autorregressiva cara. O Domino primeiro usa uma espinha dorsal paralela de rascunho para produzir distribuições preliminares de rascunho para todo o bloco e, em seguida, aplica uma cabeça Domino leve para refiná-las com informações causais dependentes do prefixo. Para estabilizar a codificação causal forçada pelo professor, introduzimos adicionalmente um currículo de treinamento ancorado na base que primeiro fortalece a espinha dorsal paralela e, gradualmente, desloca a otimização em direção à distribuição final corrigida causalmente. Experimentos com modelos Qwen3 mostram que o Domino atinge até 5,49× de aceleração ponta a ponta sob o backend Transformers e até 5,8× de aceleração na taxa de transferência sob o serviço SGLang.

English

Speculative decoding accelerates LLM inference by drafting multiple tokens and verifying them in parallel with the target model. However, its practical speedup is constrained by the trade-off between draft quality and drafting cost: autoregressive drafters model causal dependencies among draft tokens but incur sequential overhead, while parallel drafters reduce drafting cost but weaken intra-block dependency modeling. In this paper, we propose Domino, a speculative decoding framework that decouples causal dependency modeling from expensive autoregressive draft execution. Domino first uses a parallel draft backbone to produce preliminary draft distributions for the entire block, and then applies a lightweight Domino head to refine them with prefix-dependent causal information. To stabilize teacher-forced causal encoding, we further introduce a base-anchored training curriculum that first strengthens the parallel backbone and then gradually shifts optimization toward the causally corrected final distribution. Experiments on Qwen3 models show that Domino achieves up to \(5.49\times\) end-to-end speedup under the Transformers backend and up to \(5.8\times\) throughput speedup under SGLang serving.