Spiegelndes Spekulatives Decodieren: Überwindung der seriellen Barriere in der LLM-Inferenz

papers.abstract

Spekulatives Decodieren beschleunigt die Inferenz von LLMs, indem ein Entwurfsmodell verwendet wird, um vorauszuschauen, doch die Gewinne sind durch die Kosten der autoregressiven Entwurfsgenerierung begrenzt: Eine Vergrößerung der Entwurfsgröße erhöht die Akzeptanzraten, führt jedoch zusätzliche Latenzoverheads ein, was den Geschwindigkeits-Genauigkeits-Kompromiss verschärft. Bisherige Methoden (Medusa, Hydra, EAGLE) reduzieren die Entwurfskosten teilweise, beeinträchtigen jedoch entweder die Akzeptanz oder führen Overheads ein, die die Skalierbarkeit begrenzen. Wir präsentieren Mirror Speculative Decoding (Mirror-SD), einen Inferenzalgorithmus, der den Latenz-Akzeptanz-Kompromiss aufbricht. Mirror-SD startet vollständige Rollouts von frühen Austrittssignalen parallel zum Suffix des Zielmodells und bildet die Berechnung explizit über heterogene Beschleuniger (GPU und NPU) ab, um die Parallelität über Geräte hinweg zu nutzen. Der Entwurf spekuliert Vorwärtsfortsetzungen, die das Zielmodell überprüft, während das Zielmodell gleichzeitig Korrekturpfade für den Entwurf spekuliert, wodurch die Spekulation in zwei komplementäre Ausführungspipelines umgewandelt wird. Um die Entwurfslatenz weiter zu reduzieren, ohne die Akzeptanzsemantik zu schwächen, fügen wir spekulatives Streaming hinzu, sodass der Entwurf mehrere Tokens pro Schritt ausgibt. Diese duale Strategie aus paralleler heterogener Ausführung plus Multi-Token-spezulativem Streaming treibt das spekulative Decodieren in Richtung seines idealen Regimes hoher Akzeptanz bei geringem Overhead. Auf SpecBench mit Server-skaligen Modellen von 14B bis 66B Parametern erzielt Mirror-SD konsistente End-to-End-Gewinne, erreicht 2,8x-5,8x Wall-Time-Beschleunigungen über diverse Aufgaben hinweg und eine durchschnittliche relative Verbesserung von 30 % gegenüber dem stärksten Baseline, EAGLE3.

English

Speculative decoding accelerates LLM inference by using a draft model to look ahead, but gains are capped by the cost of autoregressive draft generation: increasing draft size elevates acceptance rates but introduces additional latency overhead exacerbating the speed-accuracy tradeoff. Prior methods (Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade acceptance or introduce overheads that limit scaling. We present Mirror Speculative Decoding (Mirror-SD), an inference algorithm that breaks the latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from early-exit signals in parallel with the target model's suffix and explicitly maps computation across heterogeneous accelerators (GPU and NPU) to exploit cross-device parallelism. The draft speculates forward continuations for the target to verify, while the target simultaneously speculates correction paths for the draft, converting speculation into two complementary execution pipelines. To further cut draft latency without weakening acceptance semantics, we add speculative streaming so the draft emits multiple tokens per step. This dual strategy of parallel heterogeneous execution plus multi-token speculative streaming pushes speculative decoding toward its ideal regime of high acceptance with low overhead. On SpecBench with server-scale models from 14B to 66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving 2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative improvement over the strongest baseline, EAGLE3.

Spiegelndes Spekulatives Decodieren: Überwindung der seriellen Barriere in der LLM-Inferenz

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

papers.abstract

Support