Спекулятивное конвейерное декодирование: Повышенная точность и спекуляция с нулевым пузырем посредством конвейерного параллелизма

Аннотация

Спекулятивное декодирование (СД) ускоряет инференс больших языковых моделей (LLM) с низкой степенью параллелизма за счёт использования парадигмы «черновик, затем проверка». Однако основные методы, как правило, полагаются на многотокенное предсказание, что приводит к возрастающей сложности предсказания и последовательной задержке формирования черновика. Для решения этих проблем мы предлагаем Спекулятивное конвейерное декодирование (СКД) — новаторскую структуру, раскрывающую истинный потенциал конвейерного параллелизма. Разделяя целевую LLM на n конвейерных стадий, СКД позволяет модели обрабатывать n токенов параллельно, ускоряя декодирование. Для непрерывного заполнения конвейера при декодировании одиночной последовательности модуль спекуляции агрегирует промежуточные признаки на различных глубинах конвейера для предсказания следующего токена, выполняясь строго параллельно с шагом конвейера целевой модели, что обеспечивает ограниченную сложность, более высокий уровень принятия и нулевые пузыри задержки. Наши эксперименты показывают, что СКД достигает значительно более высокого теоретического ускорения по сравнению с основными базовыми методами, предлагая высокомасштабируемое решение для ускорения декодирования LLM. Наш код доступен по адресу https://github.com/yuyijiong/speculative_pipeline_decoding.

English

Speculative Decoding (SD) accelerates low-concurrency LLM inference by employing a draft-then-verify paradigm. However, mainstream methods typically rely on multi-token prediction, which introduces escalating prediction difficulty and serial drafting latency. To address these, we propose Speculative Pipeline Decoding (SPD), a groundbreaking framework that unlocks the true potential of pipeline parallelism. By partitioning the target LLM into n pipeline stages, SPD allows LLM to process n tokens in parallel to accelerate decoding. To continuous fill the pipeline in single sequence decoding, a speculation module aggregates intermediate features across different pipeline depths to predict the next token, executing strictly in parallel with the target model's pipeline step, to realize bounded difficulty, higher acceptance rates, and zero latency bubbles. Our experiments demonstrate that SPD achieves a significantly higher theoretical speedup compared to mainstream baselines, offering a highly scalable solution for LLM decoding acceleration. Our code is available at https://github.com/yuyijiong/speculative_pipeline_decoding