Decodificação Especulativa em Pipeline: Maior Precisão e Especulação Sem Bolhas via Paralelismo de Pipeline

Resumo

A Decodificação Especulativa (Speculative Decoding, SD) acelera a inferência de LLMs com baixa concorrência por meio de um paradigma de rascunho e verificação. No entanto, os métodos convencionais geralmente dependem da predição de múltiplos tokens, o que introduz dificuldade crescente de predição e latência de elaboração serial. Para resolver esses problemas, propomos a Decodificação Especulativa em Pipeline (Speculative Pipeline Decoding, SPD), uma estrutura inovadora que desbloqueia o verdadeiro potencial do paralelismo de pipeline. Ao particionar o LLM alvo em n estágios de pipeline, o SPD permite que o LLM processe n tokens em paralelo para acelerar a decodificação. Para preencher continuamente o pipeline na decodificação de sequência única, um módulo de especulação agrega características intermediárias em diferentes profundidades de pipeline para prever o próximo token, executando estritamente em paralelo com a etapa de pipeline do modelo alvo, a fim de obter dificuldade limitada, taxas de aceitação mais altas e bolhas de latência zero. Nossos experimentos demonstram que o SPD atinge um ganho de velocidade teórico significativamente maior em comparação com as linhas de base convencionais, oferecendo uma solução altamente escalável para a aceleração da decodificação de LLMs. Nosso código está disponível em https://github.com/yuyijiong/speculative_pipeline_decoding.

English

Speculative Decoding (SD) accelerates low-concurrency LLM inference by employing a draft-then-verify paradigm. However, mainstream methods typically rely on multi-token prediction, which introduces escalating prediction difficulty and serial drafting latency. To address these, we propose Speculative Pipeline Decoding (SPD), a groundbreaking framework that unlocks the true potential of pipeline parallelism. By partitioning the target LLM into n pipeline stages, SPD allows LLM to process n tokens in parallel to accelerate decoding. To continuous fill the pipeline in single sequence decoding, a speculation module aggregates intermediate features across different pipeline depths to predict the next token, executing strictly in parallel with the target model's pipeline step, to realize bounded difficulty, higher acceptance rates, and zero latency bubbles. Our experiments demonstrate that SPD achieves a significantly higher theoretical speedup compared to mainstream baselines, offering a highly scalable solution for LLM decoding acceleration. Our code is available at https://github.com/yuyijiong/speculative_pipeline_decoding