Domino: Entkopplung der kausalen Modellierung vom autoregressiven Drafting beim spekulativen Decodieren

Zusammenfassung

Spekulatives Decodieren beschleunigt die Inferenz von LLMs, indem mehrere Token entworfen und parallel mit dem Zielmodell verifiziert werden. Allerdings wird seine praktische Beschleunigung durch die Abwägung zwischen Entwurfsqualität und Entwurfskosten eingeschränkt: Autoregressive Entwurfsmodelle modellieren kausale Abhängigkeiten zwischen den Entwurfstoken, verursachen jedoch sequentiellen Overhead, während parallele Entwurfsmodelle die Entwurfskosten senken, aber die Modellierung von Abhängigkeiten innerhalb eines Blocks schwächen. In dieser Arbeit schlagen wir Domino vor, ein Framework für spekulatives Decodieren, das die Modellierung kausaler Abhängigkeiten von der teuren autoregressiven Entwurfsausführung entkoppelt. Domino verwendet zunächst ein paralleles Entwurfs-Backbone, um vorläufige Entwurfsverteilungen für den gesamten Block zu erzeugen, und wendet dann einen leichten Domino-Head an, um diese mit präfixabhängigen kausalen Informationen zu verfeinern. Um die lehrergesteuerte kausale Kodierung zu stabilisieren, führen wir weiterhin ein basisverankertes Trainingscurriculum ein, das zunächst das parallele Backbone stärkt und dann die Optimierung schrittweise in Richtung der kausal korrigierten endgültigen Verteilung verlagert. Experimente mit Qwen3-Modellen zeigen, dass Domino unter dem Transformers-Backend eine End-to-End-Beschleunigung von bis zu \(5.49\times\) und unter SGLang-Serving eine Durchsatzbeschleunigung von bis zu \(5.8\times\) erreicht.

English

Speculative decoding accelerates LLM inference by drafting multiple tokens and verifying them in parallel with the target model. However, its practical speedup is constrained by the trade-off between draft quality and drafting cost: autoregressive drafters model causal dependencies among draft tokens but incur sequential overhead, while parallel drafters reduce drafting cost but weaken intra-block dependency modeling. In this paper, we propose Domino, a speculative decoding framework that decouples causal dependency modeling from expensive autoregressive draft execution. Domino first uses a parallel draft backbone to produce preliminary draft distributions for the entire block, and then applies a lightweight Domino head to refine them with prefix-dependent causal information. To stabilize teacher-forced causal encoding, we further introduce a base-anchored training curriculum that first strengthens the parallel backbone and then gradually shifts optimization toward the causally corrected final distribution. Experiments on Qwen3 models show that Domino achieves up to \(5.49\times\) end-to-end speedup under the Transformers backend and up to \(5.8\times\) throughput speedup under SGLang serving.