Mirror Speculative Decoding: Het doorbreken van de seriële barrière in LLM-inferentie
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
October 15, 2025
Auteurs: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova
cs.AI
Samenvatting
Speculatieve decodering versnelt LLM-inferentie door gebruik te maken van een conceptmodel om vooruit te kijken, maar de winst wordt beperkt door de kosten van autoregressieve conceptgeneratie: het vergroten van de conceptomvang verhoogt de acceptatiegraad maar introduceert extra latentieoverhead, wat de snelheid-nauwkeurigheid trade-off verergert. Eerdere methoden (Medusa, Hydra, EAGLE) verminderen de conceptkosten gedeeltelijk, maar gaan ten koste van de acceptatie of introduceren overhead die schaalbaarheid beperkt. Wij presenteren Mirror Speculative Decoding (Mirror-SD), een inferentiealgoritme dat de latentie-acceptatie trade-off doorbreekt. Mirror-SD lanceert branch-complete rollouts vanaf vroegtijdige exitsignalen parallel aan het suffix van het doelmodel en mapt expliciet berekeningen over heterogene accelerators (GPU en NPU) om cross-device parallelisme te benutten. Het concept speculeert voorwaartse voortzettingen voor het doelmodel om te verifiëren, terwijl het doelmodel gelijktijdig correctiepaden speculeert voor het concept, waardoor speculatie wordt omgezet in twee complementaire uitvoeringspijplijnen. Om de conceptlatentie verder te verlagen zonder de acceptatiesemantiek te verzwakken, voegen we speculatieve streaming toe, zodat het concept meerdere tokens per stap uitstuurt. Deze dubbele strategie van parallelle heterogene uitvoering plus multi-token speculatieve streaming duwt speculatieve decodering richting het ideale regime van hoge acceptatie met lage overhead. Op SpecBench met server-schaalmodellen van 14B tot 66B parameters levert Mirror-SD consistente end-to-end winsten op, met 2,8x-5,8x wall-time versnellingen over diverse taken en een gemiddelde relatieve verbetering van 30% ten opzichte van de sterkste baseline, EAGLE3.
English
Speculative decoding accelerates LLM inference by using a draft model to look
ahead, but gains are capped by the cost of autoregressive draft generation:
increasing draft size elevates acceptance rates but introduces additional
latency overhead exacerbating the speed-accuracy tradeoff. Prior methods
(Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade
acceptance or introduce overheads that limit scaling. We present Mirror
Speculative Decoding (Mirror-SD), an inference algorithm that breaks the
latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from
early-exit signals in parallel with the target model's suffix and explicitly
maps computation across heterogeneous accelerators (GPU and NPU) to exploit
cross-device parallelism. The draft speculates forward continuations for the
target to verify, while the target simultaneously speculates correction paths
for the draft, converting speculation into two complementary execution
pipelines. To further cut draft latency without weakening acceptance semantics,
we add speculative streaming so the draft emits multiple tokens per step. This
dual strategy of parallel heterogeneous execution plus multi-token speculative
streaming pushes speculative decoding toward its ideal regime of high
acceptance with low overhead. On SpecBench with server-scale models from 14B to
66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving
2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative
improvement over the strongest baseline, EAGLE3.