Decodificación Especulativa en Espejo: Rompiendo la Barrera Serial en la Inferencia de Modelos de Lenguaje Grande
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
October 15, 2025
Autores: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova
cs.AI
Resumen
La decodificación especulativa acelera la inferencia de modelos de lenguaje grandes (LLM) al utilizar un modelo de borrador para anticiparse, pero las ganancias están limitadas por el costo de la generación autoregresiva del borrador: aumentar el tamaño del borrador eleva las tasas de aceptación pero introduce una sobrecarga de latencia adicional que exacerba el equilibrio entre velocidad y precisión. Métodos anteriores (Medusa, Hydra, EAGLE) reducen parcialmente el costo del borrador, pero degradan la aceptación o introducen sobrecargas que limitan la escalabilidad. Presentamos la Decodificación Especulativa en Espejo (Mirror-SD), un algoritmo de inferencia que rompe el equilibrio entre latencia y aceptación. Mirror-SD lanza despliegues completos de ramas a partir de señales de salida temprana en paralelo con el sufijo del modelo objetivo y mapea explícitamente el cálculo a través de aceleradores heterogéneos (GPU y NPU) para aprovechar el paralelismo entre dispositivos. El borrador especula continuaciones futuras para que el objetivo las verifique, mientras que el objetivo simultáneamente especula rutas de corrección para el borrador, convirtiendo la especulación en dos pipelines de ejecución complementarios. Para reducir aún más la latencia del borrador sin debilitar la semántica de aceptación, añadimos transmisión especulativa para que el borrador emita múltiples tokens por paso. Esta estrategia dual de ejecución heterogénea en paralelo más transmisión especulativa de múltiples tokens impulsa la decodificación especulativa hacia su régimen ideal de alta aceptación con baja sobrecarga. En SpecBench con modelos a escala de servidor que van desde 14B hasta 66B parámetros, Mirror-SD ofrece ganancias consistentes de extremo a extremo, logrando aceleraciones de tiempo real de 2.8x a 5.8x en diversas tareas y una mejora relativa promedio del 30% sobre el baseline más fuerte, EAGLE3.
English
Speculative decoding accelerates LLM inference by using a draft model to look
ahead, but gains are capped by the cost of autoregressive draft generation:
increasing draft size elevates acceptance rates but introduces additional
latency overhead exacerbating the speed-accuracy tradeoff. Prior methods
(Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade
acceptance or introduce overheads that limit scaling. We present Mirror
Speculative Decoding (Mirror-SD), an inference algorithm that breaks the
latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from
early-exit signals in parallel with the target model's suffix and explicitly
maps computation across heterogeneous accelerators (GPU and NPU) to exploit
cross-device parallelism. The draft speculates forward continuations for the
target to verify, while the target simultaneously speculates correction paths
for the draft, converting speculation into two complementary execution
pipelines. To further cut draft latency without weakening acceptance semantics,
we add speculative streaming so the draft emits multiple tokens per step. This
dual strategy of parallel heterogeneous execution plus multi-token speculative
streaming pushes speculative decoding toward its ideal regime of high
acceptance with low overhead. On SpecBench with server-scale models from 14B to
66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving
2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative
improvement over the strongest baseline, EAGLE3.