Décodage spéculatif par pipeline : spéculation de haute précision et sans bulle grâce au parallélisme de pipeline

Résumé

Le décodage spéculatif (SD) accélère l'inférence de LLM à faible concurrence en employant un paradigme de rédaction puis vérification. Cependant, les méthodes traditionnelles reposent généralement sur la prédiction multi-tokens, ce qui introduit une difficulté de prédiction croissante et une latence de rédaction sérielle. Pour y remédier, nous proposons le décodage spéculatif par pipeline (SPD), un cadre novateur qui libère le véritable potentiel du parallélisme de pipeline. En partitionnant le LLM cible en n étapes de pipeline, SPD permet au LLM de traiter n tokens en parallèle pour accélérer le décodage. Pour remplir en continu le pipeline lors du décodage d'une séquence unique, un module de spéculation agrège les caractéristiques intermédiaires à différentes profondeurs de pipeline pour prédire le jeton suivant, en s'exécutant strictement en parallèle avec l'étape de pipeline du modèle cible, afin de réaliser une difficulté bornée, des taux d'acceptation plus élevés et des bulles de latence nulles. Nos expériences montrent que SPD atteint une accélération théorique significativement plus élevée par rapport aux références traditionnelles, offrant une solution hautement scalable pour l'accélération du décodage des LLM. Notre code est disponible à l'adresse https://github.com/yuyijiong/speculative_pipeline_decoding.

English

Speculative Decoding (SD) accelerates low-concurrency LLM inference by employing a draft-then-verify paradigm. However, mainstream methods typically rely on multi-token prediction, which introduces escalating prediction difficulty and serial drafting latency. To address these, we propose Speculative Pipeline Decoding (SPD), a groundbreaking framework that unlocks the true potential of pipeline parallelism. By partitioning the target LLM into n pipeline stages, SPD allows LLM to process n tokens in parallel to accelerate decoding. To continuous fill the pipeline in single sequence decoding, a speculation module aggregates intermediate features across different pipeline depths to predict the next token, executing strictly in parallel with the target model's pipeline step, to realize bounded difficulty, higher acceptance rates, and zero latency bubbles. Our experiments demonstrate that SPD achieves a significantly higher theoretical speedup compared to mainstream baselines, offering a highly scalable solution for LLM decoding acceleration. Our code is available at https://github.com/yuyijiong/speculative_pipeline_decoding