Décodage Spéculatif en Miroir : Briser la Barrière Sérielle dans l'Inférence des Modèles de Langage à Grande Échelle

papers.abstract

Le décodage spéculatif accélère l'inférence des modèles de langage (LLM) en utilisant un modèle de brouillon pour anticiper, mais les gains sont limités par le coût de la génération autoregressive du brouillon : augmenter la taille du brouillon améliore les taux d'acceptation mais introduit une latence supplémentaire, exacerbant le compromis vitesse-précision. Les méthodes précédentes (Medusa, Hydra, EAGLE) réduisent partiellement le coût du brouillon mais dégradent soit l'acceptation, soit introduisent des surcharges qui limitent la mise à l'échelle. Nous présentons le décodage spéculatif en miroir (Mirror-SD), un algorithme d'inférence qui rompt le compromis latence-acceptation. Mirror-SD lance des déploiements complets de branches à partir de signaux de sortie anticipée en parallèle avec le suffixe du modèle cible et cartographie explicitement les calculs sur des accélérateurs hétérogènes (GPU et NPU) pour exploiter le parallélisme inter-appareils. Le brouillon spécule des continuations futures pour que le modèle cible les vérifie, tandis que le modèle cible spécule simultanément des chemins de correction pour le brouillon, transformant la spéculation en deux pipelines d'exécution complémentaires. Pour réduire davantage la latence du brouillon sans affaiblir la sémantique d'acceptation, nous ajoutons un streaming spéculatif permettant au brouillon d'émettre plusieurs tokens par étape. Cette double stratégie d'exécution hétérogène parallèle combinée à un streaming spéculatif multi-tokens pousse le décodage spéculatif vers son régime idéal de haute acceptation avec une faible surcharge. Sur SpecBench avec des modèles à l'échelle serveur allant de 14B à 66B paramètres, Mirror-SD offre des gains cohérents de bout en bout, atteignant des accélérations en temps réel de 2,8x à 5,8x sur diverses tâches et une amélioration relative moyenne de 30 % par rapport au meilleur état de l'art, EAGLE3.

English

Speculative decoding accelerates LLM inference by using a draft model to look ahead, but gains are capped by the cost of autoregressive draft generation: increasing draft size elevates acceptance rates but introduces additional latency overhead exacerbating the speed-accuracy tradeoff. Prior methods (Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade acceptance or introduce overheads that limit scaling. We present Mirror Speculative Decoding (Mirror-SD), an inference algorithm that breaks the latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from early-exit signals in parallel with the target model's suffix and explicitly maps computation across heterogeneous accelerators (GPU and NPU) to exploit cross-device parallelism. The draft speculates forward continuations for the target to verify, while the target simultaneously speculates correction paths for the draft, converting speculation into two complementary execution pipelines. To further cut draft latency without weakening acceptance semantics, we add speculative streaming so the draft emits multiple tokens per step. This dual strategy of parallel heterogeneous execution plus multi-token speculative streaming pushes speculative decoding toward its ideal regime of high acceptance with low overhead. On SpecBench with server-scale models from 14B to 66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving 2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative improvement over the strongest baseline, EAGLE3.

Décodage Spéculatif en Miroir : Briser la Barrière Sérielle dans l'Inférence des Modèles de Langage à Grande Échelle

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

papers.abstract

Support