ミラー推測デコーディング:LLM推論における逐次処理の壁を打破する
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
October 15, 2025
著者: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova
cs.AI
要旨
推測的デコードは、ドラフトモデルを使用して先読みすることでLLM推論を加速しますが、その利得は自己回帰的なドラフト生成のコストによって制限されます。ドラフトサイズを増やすと受容率は向上しますが、追加のレイテンシオーバーヘッドが発生し、速度と精度のトレードオフが悪化します。従来の手法(Medusa、Hydra、EAGLE)はドラフトコストを部分的に削減しますが、受容率を低下させるか、スケーリングを制限するオーバーヘッドを導入します。本論文では、レイテンシと受容率のトレードオフを打破する推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案します。Mirror-SDは、ターゲットモデルのサフィックスと並行して早期終了信号からブランチ完全なロールアウトを開始し、異種アクセラレータ(GPUとNPU)間で計算を明示的にマッピングして、クロスデバイスの並列性を活用します。ドラフトはターゲットが検証するための前方の継続を推測し、ターゲットは同時にドラフトの修正パスを推測することで、推測を2つの補完的な実行パイプラインに変換します。さらに、受容セマンティクスを弱めることなくドラフトのレイテンシを削減するために、ドラフトがステップごとに複数のトークンを出力する推測的ストリーミングを追加します。この並列異種実行とマルチトークン推測的ストリーミングの二重戦略により、推測的デコードは高い受容率と低いオーバーヘッドという理想的な領域に近づきます。14Bから66Bパラメータのサーバースケールモデルを使用したSpecBenchにおいて、Mirror-SDは一貫したエンドツーエンドの利得を提供し、多様なタスクで2.8倍から5.8倍の壁時間高速化を達成し、最強のベースラインであるEAGLE3に対して平均30%の相対的改善を実現しました。
English
Speculative decoding accelerates LLM inference by using a draft model to look
ahead, but gains are capped by the cost of autoregressive draft generation:
increasing draft size elevates acceptance rates but introduces additional
latency overhead exacerbating the speed-accuracy tradeoff. Prior methods
(Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade
acceptance or introduce overheads that limit scaling. We present Mirror
Speculative Decoding (Mirror-SD), an inference algorithm that breaks the
latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from
early-exit signals in parallel with the target model's suffix and explicitly
maps computation across heterogeneous accelerators (GPU and NPU) to exploit
cross-device parallelism. The draft speculates forward continuations for the
target to verify, while the target simultaneously speculates correction paths
for the draft, converting speculation into two complementary execution
pipelines. To further cut draft latency without weakening acceptance semantics,
we add speculative streaming so the draft emits multiple tokens per step. This
dual strategy of parallel heterogeneous execution plus multi-token speculative
streaming pushes speculative decoding toward its ideal regime of high
acceptance with low overhead. On SpecBench with server-scale models from 14B to
66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving
2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative
improvement over the strongest baseline, EAGLE3.