Decodificação Especulativa em Espelho: Quebrando a Barreira Serial na Inferência de LLMs
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
October 15, 2025
Autores: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova
cs.AI
Resumo
A decodificação especulativa acelera a inferência de LLMs ao utilizar um modelo de rascunho para antecipar previsões, mas os ganhos são limitados pelo custo da geração autoregressiva do rascunho: aumentar o tamanho do rascunho eleva as taxas de aceitação, mas introduz uma sobrecarga adicional de latência, exacerbando o tradeoff entre velocidade e precisão. Métodos anteriores (Medusa, Hydra, EAGLE) reduzem parcialmente o custo do rascunho, mas ou degradam a aceitação ou introduzem sobrecargas que limitam a escalabilidade. Apresentamos a Decodificação Especulativa Espelhada (Mirror-SD), um algoritmo de inferência que quebra o tradeoff entre latência e aceitação. O Mirror-SD lança rollouts completos de ramificações a partir de sinais de saída antecipada em paralelo com o sufixo do modelo alvo e mapeia explicitamente a computação em aceleradores heterogêneos (GPU e NPU) para explorar o paralelismo entre dispositivos. O rascunho especula continuações futuras para o modelo alvo verificar, enquanto o alvo simultaneamente especula caminhos de correção para o rascunho, convertendo a especulação em dois pipelines de execução complementares. Para reduzir ainda mais a latência do rascunho sem enfraquecer a semântica de aceitação, adicionamos o streaming especulativo, permitindo que o rascunho emita múltiplos tokens por etapa. Essa estratégia dupla de execução paralela heterogênea mais streaming especulativo de múltiplos tokens aproxima a decodificação especulativa de seu regime ideal de alta aceitação com baixa sobrecarga. No SpecBench, com modelos em escala de servidor variando de 14B a 66B parâmetros, o Mirror-SD oferece ganhos consistentes de ponta a ponta, alcançando acelerações de tempo real de 2,8x a 5,8x em diversas tarefas e uma melhoria relativa média de 30% sobre o baseline mais forte, o EAGLE3.
English
Speculative decoding accelerates LLM inference by using a draft model to look
ahead, but gains are capped by the cost of autoregressive draft generation:
increasing draft size elevates acceptance rates but introduces additional
latency overhead exacerbating the speed-accuracy tradeoff. Prior methods
(Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade
acceptance or introduce overheads that limit scaling. We present Mirror
Speculative Decoding (Mirror-SD), an inference algorithm that breaks the
latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from
early-exit signals in parallel with the target model's suffix and explicitly
maps computation across heterogeneous accelerators (GPU and NPU) to exploit
cross-device parallelism. The draft speculates forward continuations for the
target to verify, while the target simultaneously speculates correction paths
for the draft, converting speculation into two complementary execution
pipelines. To further cut draft latency without weakening acceptance semantics,
we add speculative streaming so the draft emits multiple tokens per step. This
dual strategy of parallel heterogeneous execution plus multi-token speculative
streaming pushes speculative decoding toward its ideal regime of high
acceptance with low overhead. On SpecBench with server-scale models from 14B to
66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving
2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative
improvement over the strongest baseline, EAGLE3.