ChatPaper.aiChatPaper

SPEED-Bench:投機的デコーディングのための統合的で多様なベンチマーク

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

February 10, 2026
著者: Talor Abramovich, Maor Ashkenazi, Carl, Putterman, Benjamin Chislett, Tiyasa Mitra, Bita Darvish Rouhani, Ran Zilberstein, Yonatan Geifman
cs.AI

要旨

推測的デコーディング(SD)は、大規模言語モデル(LLM)の推論を高速化する重要な技術として登場した。決定論的なシステム最適化とは異なり、SDの性能は本質的にデータに依存する。すなわち、その効果を正確に測定するには、多様で代表的なワークロードが不可欠である。既存のベンチマークは、タスクの多様性が限定的であること、スループット重視の評価を十分にサポートしていないこと、本番環境を反映しない高水準の実装に依存していることなどの課題を抱えている。これらを解決するため、我々は多様な意味領域と現実的なサービス提供体制にわたってSD評価を標準化する包括的スイート、SPEED-Benchを提案する。SPEED-Benchは、データサンプル間の意味的多様性を優先して選択され、注意深くキュレーションされた定性評価用データ分割を提供する。さらに、スループット測定用データ分割を含み、レイテンシ敏感な低バッチ設定からスループット重視の高負荷シナリオまで、様々な同時実行数における高速化の評価を可能にする。vLLMやTensorRT-LLMのような本番用エンジンと統合することで、SPEED-Benchは他のベンチマークでは見逃されがちなシステムの挙動を実践者が分析することを可能にする。我々は、合成入力が実世界のスループットを過大評価する程度の定量化、バッチサイズに依存する最適ドラフト長と低多様性データにおけるバイアスの特定、そして最先端のドラフターにおける語彙プルーニングの注意点の分析を通じて、この利点を明示する。SDアルゴリズムの実用的比較のための統一的な評価基準を確立するため、SPEED-Benchを公開する。
English
Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic system optimizations, SD performance is inherently data-dependent, meaning that diverse and representative workloads are essential for accurately measuring its effectiveness. Existing benchmarks suffer from limited task diversity, inadequate support for throughput-oriented evaluation, and a reliance on high-level implementations that fail to reflect production environments. To address this, we introduce SPEED-Bench, a comprehensive suite designed to standardize SD evaluation across diverse semantic domains and realistic serving regimes. SPEED-Bench offers a carefully curated Qualitative data split, selected by prioritizing semantic diversity across the data samples. Additionally, it includes a Throughput data split, allowing speedup evaluation across a range of concurrencies, from latency-sensitive low-batch settings to throughput-oriented high-load scenarios. By integrating with production engines like vLLM and TensorRT-LLM, SPEED-Bench allows practitioners to analyze system behaviors often masked by other benchmarks. We highlight this by quantifying how synthetic inputs overestimate real-world throughput, identifying batch-size dependent optimal draft lengths and biases in low-diversity data, and analyzing the caveats of vocabulary pruning in state-of-the-art drafters. We release SPEED-Bench to establish a unified evaluation standard for practical comparisons of SD algorithms.
PDF81April 15, 2026