Mirror Speculative Decoding: Het doorbreken van de seriële barrière in LLM-inferentie

Samenvatting

Speculatieve decodering versnelt LLM-inferentie door gebruik te maken van een conceptmodel om vooruit te kijken, maar de winst wordt beperkt door de kosten van autoregressieve conceptgeneratie: het vergroten van de conceptomvang verhoogt de acceptatiegraad maar introduceert extra latentieoverhead, wat de snelheid-nauwkeurigheid trade-off verergert. Eerdere methoden (Medusa, Hydra, EAGLE) verminderen de conceptkosten gedeeltelijk, maar gaan ten koste van de acceptatie of introduceren overhead die schaalbaarheid beperkt. Wij presenteren Mirror Speculative Decoding (Mirror-SD), een inferentiealgoritme dat de latentie-acceptatie trade-off doorbreekt. Mirror-SD lanceert branch-complete rollouts vanaf vroegtijdige exitsignalen parallel aan het suffix van het doelmodel en mapt expliciet berekeningen over heterogene accelerators (GPU en NPU) om cross-device parallelisme te benutten. Het concept speculeert voorwaartse voortzettingen voor het doelmodel om te verifiëren, terwijl het doelmodel gelijktijdig correctiepaden speculeert voor het concept, waardoor speculatie wordt omgezet in twee complementaire uitvoeringspijplijnen. Om de conceptlatentie verder te verlagen zonder de acceptatiesemantiek te verzwakken, voegen we speculatieve streaming toe, zodat het concept meerdere tokens per stap uitstuurt. Deze dubbele strategie van parallelle heterogene uitvoering plus multi-token speculatieve streaming duwt speculatieve decodering richting het ideale regime van hoge acceptatie met lage overhead. Op SpecBench met server-schaalmodellen van 14B tot 66B parameters levert Mirror-SD consistente end-to-end winsten op, met 2,8x-5,8x wall-time versnellingen over diverse taken en een gemiddelde relatieve verbetering van 30% ten opzichte van de sterkste baseline, EAGLE3.

English

Speculative decoding accelerates LLM inference by using a draft model to look ahead, but gains are capped by the cost of autoregressive draft generation: increasing draft size elevates acceptance rates but introduces additional latency overhead exacerbating the speed-accuracy tradeoff. Prior methods (Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade acceptance or introduce overheads that limit scaling. We present Mirror Speculative Decoding (Mirror-SD), an inference algorithm that breaks the latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from early-exit signals in parallel with the target model's suffix and explicitly maps computation across heterogeneous accelerators (GPU and NPU) to exploit cross-device parallelism. The draft speculates forward continuations for the target to verify, while the target simultaneously speculates correction paths for the draft, converting speculation into two complementary execution pipelines. To further cut draft latency without weakening acceptance semantics, we add speculative streaming so the draft emits multiple tokens per step. This dual strategy of parallel heterogeneous execution plus multi-token speculative streaming pushes speculative decoding toward its ideal regime of high acceptance with low overhead. On SpecBench with server-scale models from 14B to 66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving 2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative improvement over the strongest baseline, EAGLE3.

Mirror Speculative Decoding: Het doorbreken van de seriële barrière in LLM-inferentie

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

Samenvatting

Support