Domino: Ontkoppeling van Causale Modellering van Autoregressief Opstellen in Speculatief Decoderen

Samenvatting

Speculatieve decodering versnelt LLM-inferentie door meerdere tokens te genereren en deze parallel te verifiëren met het doelmodel. De praktische snelheidswinst wordt echter beperkt door de afweging tussen conceptkwaliteit en conceptkosten: autoregressieve conceptgeneratoren modelleren causale afhankelijkheden tussen concepttokens, maar introduceren sequentiële overhead, terwijl parallelle conceptgeneratoren de conceptkosten verlagen maar de modellering van intra-blokafhankelijkheden verzwakken. In dit artikel introduceren we Domino, een speculatief decodeerframework dat causale afhankelijkheidsmodellering ontkoppelt van dure autoregressieve conceptuitvoering. Domino gebruikt eerst een parallelle conceptbackbone om voorlopige conceptdistributies voor het gehele blok te produceren, en past vervolgens een lichtgewicht Domino-kop toe om deze te verfijnen met prefix-afhankelijke causale informatie. Om teacher-forced causale codering te stabiliseren, introduceren we verder een basisverankerd trainingscurriculum dat eerst de parallelle backbone versterkt en vervolgens de optimalisatie geleidelijk verschuift naar de causaal gecorrigeerde uiteindelijke distributie. Experimenten met Qwen3-modellen tonen aan dat Domino tot \(5.49\times\) eind-tot-eindsnelheidswinst behaalt onder de Transformers-backend en tot \(5.8\times\) doorvoersnelheidswinst onder SGLang-serving.

English

Speculative decoding accelerates LLM inference by drafting multiple tokens and verifying them in parallel with the target model. However, its practical speedup is constrained by the trade-off between draft quality and drafting cost: autoregressive drafters model causal dependencies among draft tokens but incur sequential overhead, while parallel drafters reduce drafting cost but weaken intra-block dependency modeling. In this paper, we propose Domino, a speculative decoding framework that decouples causal dependency modeling from expensive autoregressive draft execution. Domino first uses a parallel draft backbone to produce preliminary draft distributions for the entire block, and then applies a lightweight Domino head to refine them with prefix-dependent causal information. To stabilize teacher-forced causal encoding, we further introduce a base-anchored training curriculum that first strengthens the parallel backbone and then gradually shifts optimization toward the causally corrected final distribution. Experiments on Qwen3 models show that Domino achieves up to \(5.49\times\) end-to-end speedup under the Transformers backend and up to \(5.8\times\) throughput speedup under SGLang serving.