Domino : Découplage de la modélisation causale par rapport à la rédaction autorégressive dans le décodage spéculatif

Résumé

Le décodage spéculatif accélère l'inférence des LLM en générant plusieurs tokens puis en les vérifiant en parallèle avec le modèle cible. Cependant, son accélération pratique est limitée par le compromis entre la qualité des propositions et leur coût de génération : les générateurs autorégressifs modélisent les dépendances causales entre les tokens proposés mais induisent un surcoût séquentiel, tandis que les générateurs parallèles réduisent ce coût au détriment de la modélisation des dépendances intra-bloc. Dans cet article, nous proposons Domino, un cadre de décodage spéculatif qui dissocie la modélisation des dépendances causales de l'exécution autorégressive coûteuse des propositions. Domino utilise d'abord un réseau principal parallèle de génération pour produire des distributions préliminaires sur l'ensemble du bloc, puis applique une tête Domino légère pour les affiner à l'aide d'informations causales dépendant du préfixe. Afin de stabiliser l'encodage causal par forçage enseignant, nous introduisons en outre un programme d'entraînement ancré sur la base, qui renforce d'abord le réseau parallèle puis oriente progressivement l'optimisation vers la distribution finale corrigée causalement. Des expériences menées sur les modèles Qwen3 montrent que Domino atteint une accélération de bout en bout allant jusqu'à \(5,49\times\) avec le backend Transformers et jusqu'à \(5,8\times\) d'accélération du débit sous le service SGLang.

English

Speculative decoding accelerates LLM inference by drafting multiple tokens and verifying them in parallel with the target model. However, its practical speedup is constrained by the trade-off between draft quality and drafting cost: autoregressive drafters model causal dependencies among draft tokens but incur sequential overhead, while parallel drafters reduce drafting cost but weaken intra-block dependency modeling. In this paper, we propose Domino, a speculative decoding framework that decouples causal dependency modeling from expensive autoregressive draft execution. Domino first uses a parallel draft backbone to produce preliminary draft distributions for the entire block, and then applies a lightweight Domino head to refine them with prefix-dependent causal information. To stabilize teacher-forced causal encoding, we further introduce a base-anchored training curriculum that first strengthens the parallel backbone and then gradually shifts optimization toward the causally corrected final distribution. Experiments on Qwen3 models show that Domino achieves up to \(5.49\times\) end-to-end speedup under the Transformers backend and up to \(5.8\times\) throughput speedup under SGLang serving.