Spekulative Pipeline-Dekodierung: Höhere Genauigkeit und Null-Blasen-Spekulation durch Pipeline-Parallelität

Zusammenfassung

Spekulative Dekodierung (SD) beschleunigt die Inferenz von LLMs mit geringer Parallelität durch ein Entwurf-dann-Verifizierungs-Paradigma. Allerdings basieren gängige Methoden typischerweise auf Mehrfach-Token-Vorhersagen, was zu zunehmender Vorhersageschwierigkeit und serieller Entwurfslatenz führt. Um diese Probleme zu adressieren, schlagen wir die Spekulative Pipeline-Dekodierung (SPD) vor – ein bahnbrechendes Framework, das das wahre Potenzial der Pipeline-Parallelität erschließt. Durch die Aufteilung des Ziel-LLMs in n Pipeline-Stufen ermöglicht SPD dem LLM, n Tokens parallel zu verarbeiten und so die Dekodierung zu beschleunigen. Um die Pipeline bei der Dekodierung einzelner Sequenzen kontinuierlich zu füllen, aggregiert ein Spekulationsmodul Zwischenmerkmale über verschiedene Pipelinetiefen hinweg, um das nächste Token vorherzusagen – dies geschieht strikt parallel zum Pipeline-Schritt des Zielmodells und realisiert eine begrenzte Schwierigkeit, höhere Akzeptanzraten und null Latenzblasen. Unsere Experimente zeigen, dass SPD im Vergleich zu gängigen Basislinien einen signifikant höheren theoretischen Geschwindigkeitsgewinn erzielt und eine hoch skalierbare Lösung zur Beschleunigung der LLM-Dekodierung bietet. Unser Code ist verfügbar unter https://github.com/yuyijiong/speculative_pipeline_decoding.

English

Speculative Decoding (SD) accelerates low-concurrency LLM inference by employing a draft-then-verify paradigm. However, mainstream methods typically rely on multi-token prediction, which introduces escalating prediction difficulty and serial drafting latency. To address these, we propose Speculative Pipeline Decoding (SPD), a groundbreaking framework that unlocks the true potential of pipeline parallelism. By partitioning the target LLM into n pipeline stages, SPD allows LLM to process n tokens in parallel to accelerate decoding. To continuous fill the pipeline in single sequence decoding, a speculation module aggregates intermediate features across different pipeline depths to predict the next token, executing strictly in parallel with the target model's pipeline step, to realize bounded difficulty, higher acceptance rates, and zero latency bubbles. Our experiments demonstrate that SPD achieves a significantly higher theoretical speedup compared to mainstream baselines, offering a highly scalable solution for LLM decoding acceleration. Our code is available at https://github.com/yuyijiong/speculative_pipeline_decoding