Decodificación Especulativa en Tubería: Especulación de Mayor Precisión y Cero Burbujas mediante Paralelismo en Tubería

Resumen

La Decodificación Especulativa (SD) acelera la inferencia de LLM con baja concurrencia empleando un paradigma de borrador y verificación. Sin embargo, los métodos convencionales típicamente se basan en predicción de múltiples tokens, lo que introduce una dificultad de predicción creciente y latencia de borrador en serie. Para abordar esto, proponemos la Decodificación Especulativa en Tubería (SPD), un marco innovador que desbloquea el verdadero potencial del paralelismo en tubería. Al dividir el LLM objetivo en n etapas de tubería, SPD permite que el LLM procese n tokens en paralelo para acelerar la decodificación. Para llenar continuamente la tubería en la decodificación de secuencia única, un módulo de especulación agrega características intermedias a través de diferentes profundidades de tubería para predecir el siguiente token, ejecutándose estrictamente en paralelo con el paso de tubería del modelo objetivo, logrando así dificultad acotada, tasas de aceptación más altas y burbujas de latencia cero. Nuestros experimentos demuestran que SPD alcanza una aceleración teórica significativamente mayor en comparación con las líneas base convencionales, ofreciendo una solución altamente escalable para la aceleración de la decodificación de LLM. Nuestro código está disponible en https://github.com/yuyijiong/speculative_pipeline_decoding.

English

Speculative Decoding (SD) accelerates low-concurrency LLM inference by employing a draft-then-verify paradigm. However, mainstream methods typically rely on multi-token prediction, which introduces escalating prediction difficulty and serial drafting latency. To address these, we propose Speculative Pipeline Decoding (SPD), a groundbreaking framework that unlocks the true potential of pipeline parallelism. By partitioning the target LLM into n pipeline stages, SPD allows LLM to process n tokens in parallel to accelerate decoding. To continuous fill the pipeline in single sequence decoding, a speculation module aggregates intermediate features across different pipeline depths to predict the next token, executing strictly in parallel with the target model's pipeline step, to realize bounded difficulty, higher acceptance rates, and zero latency bubbles. Our experiments demonstrate that SPD achieves a significantly higher theoretical speedup compared to mainstream baselines, offering a highly scalable solution for LLM decoding acceleration. Our code is available at https://github.com/yuyijiong/speculative_pipeline_decoding