Mirror Speculative Decoding: Superare il limite della serialità nell'inferenza dei modelli linguistici di grandi dimensioni
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
October 15, 2025
Autori: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova
cs.AI
Abstract
Il decoding speculativo accelera l'inferenza dei LLM utilizzando un modello draft per anticipare le previsioni, ma i guadagni sono limitati dal costo della generazione autoregressiva del draft: aumentare la dimensione del draft incrementa i tassi di accettazione ma introduce un sovraccarico di latenza che esacerba il compromesso tra velocità e accuratezza. I metodi precedenti (Medusa, Hydra, EAGLE) riducono parzialmente il costo del draft, ma degradano l'accettazione o introducono sovraccarichi che limitano la scalabilità. Presentiamo il Mirror Speculative Decoding (Mirror-SD), un algoritmo di inferenza che supera il compromesso tra latenza e accettazione. Mirror-SD lancia rollouts completi di ramificazioni a partire da segnali di uscita anticipata in parallelo con il suffisso del modello target e mappa esplicitamente il calcolo su acceleratori eterogenei (GPU e NPU) per sfruttare il parallelismo cross-device. Il draft specula continuazioni future per il target da verificare, mentre il target specula simultaneamente percorsi di correzione per il draft, trasformando la speculazione in due pipeline di esecuzione complementari. Per ridurre ulteriormente la latenza del draft senza indebolire la semantica di accettazione, aggiungiamo lo streaming speculativo, permettendo al draft di emettere più token per passo. Questa doppia strategia di esecuzione eterogenea parallela più lo streaming speculativo multi-token spinge il decoding speculativo verso il suo regime ideale di alta accettazione con basso sovraccarico. Su SpecBench con modelli di scala server da 14B a 66B parametri, Mirror-SD offre guadagni end-to-end consistenti, raggiungendo accelerazioni del tempo di esecuzione da 2.8x a 5.8x su compiti diversi e un miglioramento relativo medio del 30% rispetto al baseline più forte, EAGLE3.
English
Speculative decoding accelerates LLM inference by using a draft model to look
ahead, but gains are capped by the cost of autoregressive draft generation:
increasing draft size elevates acceptance rates but introduces additional
latency overhead exacerbating the speed-accuracy tradeoff. Prior methods
(Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade
acceptance or introduce overheads that limit scaling. We present Mirror
Speculative Decoding (Mirror-SD), an inference algorithm that breaks the
latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from
early-exit signals in parallel with the target model's suffix and explicitly
maps computation across heterogeneous accelerators (GPU and NPU) to exploit
cross-device parallelism. The draft speculates forward continuations for the
target to verify, while the target simultaneously speculates correction paths
for the draft, converting speculation into two complementary execution
pipelines. To further cut draft latency without weakening acceptance semantics,
we add speculative streaming so the draft emits multiple tokens per step. This
dual strategy of parallel heterogeneous execution plus multi-token speculative
streaming pushes speculative decoding toward its ideal regime of high
acceptance with low overhead. On SpecBench with server-scale models from 14B to
66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving
2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative
improvement over the strongest baseline, EAGLE3.