Décodage Spéculatif en Miroir : Briser la Barrière Sérielle dans l'Inférence des Modèles de Langage à Grande Échelle
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
October 15, 2025
papers.authors: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova
cs.AI
papers.abstract
Le décodage spéculatif accélère l'inférence des modèles de langage (LLM) en utilisant un modèle de brouillon pour anticiper, mais les gains sont limités par le coût de la génération autoregressive du brouillon : augmenter la taille du brouillon améliore les taux d'acceptation mais introduit une latence supplémentaire, exacerbant le compromis vitesse-précision. Les méthodes précédentes (Medusa, Hydra, EAGLE) réduisent partiellement le coût du brouillon mais dégradent soit l'acceptation, soit introduisent des surcharges qui limitent la mise à l'échelle. Nous présentons le décodage spéculatif en miroir (Mirror-SD), un algorithme d'inférence qui rompt le compromis latence-acceptation. Mirror-SD lance des déploiements complets de branches à partir de signaux de sortie anticipée en parallèle avec le suffixe du modèle cible et cartographie explicitement les calculs sur des accélérateurs hétérogènes (GPU et NPU) pour exploiter le parallélisme inter-appareils. Le brouillon spécule des continuations futures pour que le modèle cible les vérifie, tandis que le modèle cible spécule simultanément des chemins de correction pour le brouillon, transformant la spéculation en deux pipelines d'exécution complémentaires. Pour réduire davantage la latence du brouillon sans affaiblir la sémantique d'acceptation, nous ajoutons un streaming spéculatif permettant au brouillon d'émettre plusieurs tokens par étape. Cette double stratégie d'exécution hétérogène parallèle combinée à un streaming spéculatif multi-tokens pousse le décodage spéculatif vers son régime idéal de haute acceptation avec une faible surcharge. Sur SpecBench avec des modèles à l'échelle serveur allant de 14B à 66B paramètres, Mirror-SD offre des gains cohérents de bout en bout, atteignant des accélérations en temps réel de 2,8x à 5,8x sur diverses tâches et une amélioration relative moyenne de 30 % par rapport au meilleur état de l'art, EAGLE3.
English
Speculative decoding accelerates LLM inference by using a draft model to look
ahead, but gains are capped by the cost of autoregressive draft generation:
increasing draft size elevates acceptance rates but introduces additional
latency overhead exacerbating the speed-accuracy tradeoff. Prior methods
(Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade
acceptance or introduce overheads that limit scaling. We present Mirror
Speculative Decoding (Mirror-SD), an inference algorithm that breaks the
latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from
early-exit signals in parallel with the target model's suffix and explicitly
maps computation across heterogeneous accelerators (GPU and NPU) to exploit
cross-device parallelism. The draft speculates forward continuations for the
target to verify, while the target simultaneously speculates correction paths
for the draft, converting speculation into two complementary execution
pipelines. To further cut draft latency without weakening acceptance semantics,
we add speculative streaming so the draft emits multiple tokens per step. This
dual strategy of parallel heterogeneous execution plus multi-token speculative
streaming pushes speculative decoding toward its ideal regime of high
acceptance with low overhead. On SpecBench with server-scale models from 14B to
66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving
2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative
improvement over the strongest baseline, EAGLE3.