Spiegelndes Spekulatives Decodieren: Überwindung der seriellen Barriere in der LLM-Inferenz
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
October 15, 2025
papers.authors: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova
cs.AI
papers.abstract
Spekulatives Decodieren beschleunigt die Inferenz von LLMs, indem ein Entwurfsmodell verwendet wird, um vorauszuschauen, doch die Gewinne sind durch die Kosten der autoregressiven Entwurfsgenerierung begrenzt: Eine Vergrößerung der Entwurfsgröße erhöht die Akzeptanzraten, führt jedoch zusätzliche Latenzoverheads ein, was den Geschwindigkeits-Genauigkeits-Kompromiss verschärft. Bisherige Methoden (Medusa, Hydra, EAGLE) reduzieren die Entwurfskosten teilweise, beeinträchtigen jedoch entweder die Akzeptanz oder führen Overheads ein, die die Skalierbarkeit begrenzen. Wir präsentieren Mirror Speculative Decoding (Mirror-SD), einen Inferenzalgorithmus, der den Latenz-Akzeptanz-Kompromiss aufbricht. Mirror-SD startet vollständige Rollouts von frühen Austrittssignalen parallel zum Suffix des Zielmodells und bildet die Berechnung explizit über heterogene Beschleuniger (GPU und NPU) ab, um die Parallelität über Geräte hinweg zu nutzen. Der Entwurf spekuliert Vorwärtsfortsetzungen, die das Zielmodell überprüft, während das Zielmodell gleichzeitig Korrekturpfade für den Entwurf spekuliert, wodurch die Spekulation in zwei komplementäre Ausführungspipelines umgewandelt wird. Um die Entwurfslatenz weiter zu reduzieren, ohne die Akzeptanzsemantik zu schwächen, fügen wir spekulatives Streaming hinzu, sodass der Entwurf mehrere Tokens pro Schritt ausgibt. Diese duale Strategie aus paralleler heterogener Ausführung plus Multi-Token-spezulativem Streaming treibt das spekulative Decodieren in Richtung seines idealen Regimes hoher Akzeptanz bei geringem Overhead. Auf SpecBench mit Server-skaligen Modellen von 14B bis 66B Parametern erzielt Mirror-SD konsistente End-to-End-Gewinne, erreicht 2,8x-5,8x Wall-Time-Beschleunigungen über diverse Aufgaben hinweg und eine durchschnittliche relative Verbesserung von 30 % gegenüber dem stärksten Baseline, EAGLE3.
English
Speculative decoding accelerates LLM inference by using a draft model to look
ahead, but gains are capped by the cost of autoregressive draft generation:
increasing draft size elevates acceptance rates but introduces additional
latency overhead exacerbating the speed-accuracy tradeoff. Prior methods
(Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade
acceptance or introduce overheads that limit scaling. We present Mirror
Speculative Decoding (Mirror-SD), an inference algorithm that breaks the
latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from
early-exit signals in parallel with the target model's suffix and explicitly
maps computation across heterogeneous accelerators (GPU and NPU) to exploit
cross-device parallelism. The draft speculates forward continuations for the
target to verify, while the target simultaneously speculates correction paths
for the draft, converting speculation into two complementary execution
pipelines. To further cut draft latency without weakening acceptance semantics,
we add speculative streaming so the draft emits multiple tokens per step. This
dual strategy of parallel heterogeneous execution plus multi-token speculative
streaming pushes speculative decoding toward its ideal regime of high
acceptance with low overhead. On SpecBench with server-scale models from 14B to
66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving
2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative
improvement over the strongest baseline, EAGLE3.