Mirror Speculative Decoding: Superare il limite della serialità nell'inferenza dei modelli linguistici di grandi dimensioni

Abstract

Il decoding speculativo accelera l'inferenza dei LLM utilizzando un modello draft per anticipare le previsioni, ma i guadagni sono limitati dal costo della generazione autoregressiva del draft: aumentare la dimensione del draft incrementa i tassi di accettazione ma introduce un sovraccarico di latenza che esacerba il compromesso tra velocità e accuratezza. I metodi precedenti (Medusa, Hydra, EAGLE) riducono parzialmente il costo del draft, ma degradano l'accettazione o introducono sovraccarichi che limitano la scalabilità. Presentiamo il Mirror Speculative Decoding (Mirror-SD), un algoritmo di inferenza che supera il compromesso tra latenza e accettazione. Mirror-SD lancia rollouts completi di ramificazioni a partire da segnali di uscita anticipata in parallelo con il suffisso del modello target e mappa esplicitamente il calcolo su acceleratori eterogenei (GPU e NPU) per sfruttare il parallelismo cross-device. Il draft specula continuazioni future per il target da verificare, mentre il target specula simultaneamente percorsi di correzione per il draft, trasformando la speculazione in due pipeline di esecuzione complementari. Per ridurre ulteriormente la latenza del draft senza indebolire la semantica di accettazione, aggiungiamo lo streaming speculativo, permettendo al draft di emettere più token per passo. Questa doppia strategia di esecuzione eterogenea parallela più lo streaming speculativo multi-token spinge il decoding speculativo verso il suo regime ideale di alta accettazione con basso sovraccarico. Su SpecBench con modelli di scala server da 14B a 66B parametri, Mirror-SD offre guadagni end-to-end consistenti, raggiungendo accelerazioni del tempo di esecuzione da 2.8x a 5.8x su compiti diversi e un miglioramento relativo medio del 30% rispetto al baseline più forte, EAGLE3.

English

Speculative decoding accelerates LLM inference by using a draft model to look ahead, but gains are capped by the cost of autoregressive draft generation: increasing draft size elevates acceptance rates but introduces additional latency overhead exacerbating the speed-accuracy tradeoff. Prior methods (Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade acceptance or introduce overheads that limit scaling. We present Mirror Speculative Decoding (Mirror-SD), an inference algorithm that breaks the latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from early-exit signals in parallel with the target model's suffix and explicitly maps computation across heterogeneous accelerators (GPU and NPU) to exploit cross-device parallelism. The draft speculates forward continuations for the target to verify, while the target simultaneously speculates correction paths for the draft, converting speculation into two complementary execution pipelines. To further cut draft latency without weakening acceptance semantics, we add speculative streaming so the draft emits multiple tokens per step. This dual strategy of parallel heterogeneous execution plus multi-token speculative streaming pushes speculative decoding toward its ideal regime of high acceptance with low overhead. On SpecBench with server-scale models from 14B to 66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving 2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative improvement over the strongest baseline, EAGLE3.

Mirror Speculative Decoding: Superare il limite della serialità nell'inferenza dei modelli linguistici di grandi dimensioni

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

Abstract

Support