SPEED-Bench: 스펙추레이티브 디코딩을 위한 통합적이고 다양한 벤치마크
SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding
February 10, 2026
저자: Talor Abramovich, Maor Ashkenazi, Carl, Putterman, Benjamin Chislett, Tiyasa Mitra, Bita Darvish Rouhani, Ran Zilberstein, Yonatan Geifman
cs.AI
초록
추론적 디코딩(SD)은 대규모 언어 모델(LLM) 추론 속도 향상을 위한 핵심 기술로 부상했습니다. 결정론적 시스템 최적화와 달리 SD 성능은 본질적으로 데이터 의존적이며, 이는 다양한 대표성을 갖는 워크로드가 그 효과를 정확히 측정하는 데 필수적임을 의미합니다. 기존 벤치마크는 제한된 작업 다양성, 처리량 중심 평가에 대한 불충분한 지원, 그리고 실제 운영 환경을 반영하지 못하는 높은 수준의 구현에 의존한다는 한계를 지닙니다. 이를 해결하기 위해 우리는 다양한 의미론적 영역과 현실적인 서비스 환경에서 SD 평가를 표준화하도록 설계된 포괄적인 평가 도구인 SPEED-Bench를 소개합니다. SPEED-Bench는 데이터 샘플 간 의미론적 다양성을 우선시하여 선별한 신중하게 구성된 정성적 데이터 분할을 제공합니다. 또한, 지연 시간에 민감한 낮은 배치 설정부터 처리량 중심의 높은 부하 시나리오에 이르기까지 다양한 동시 접속 수에서의 속도 향상 평가를 가능하게 하는 처리량 데이터 분할을 포함합니다. vLLM 및 TensorRT-LLM과 같은 실제 운영 엔진과의 통합을 통해 SPEED-Bench는 다른 벤치마크에서는 간과되기 쉬운 시스템 동작을 분석할 수 있게 해줍니다. 우리는 이를 통해 합성 입력이 실제 처리량을 과대평가하는 정도를 정량화하고, 배치 크기에 따라 달라지는 최적 초안 길이와 낮은 다양성 데이터의 편향을 확인하며, 최신 초안 생성 모델에서 어휘 사전 제거 기법의 주의사항을 분석하여 그 중요성을 부각합니다. 우리는 SPEED-Bench를 공개하여 SD 알고리즘의 실용적 비교를 위한 통합 평가 기준을 수립하고자 합니다.
English
Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic system optimizations, SD performance is inherently data-dependent, meaning that diverse and representative workloads are essential for accurately measuring its effectiveness. Existing benchmarks suffer from limited task diversity, inadequate support for throughput-oriented evaluation, and a reliance on high-level implementations that fail to reflect production environments. To address this, we introduce SPEED-Bench, a comprehensive suite designed to standardize SD evaluation across diverse semantic domains and realistic serving regimes. SPEED-Bench offers a carefully curated Qualitative data split, selected by prioritizing semantic diversity across the data samples. Additionally, it includes a Throughput data split, allowing speedup evaluation across a range of concurrencies, from latency-sensitive low-batch settings to throughput-oriented high-load scenarios. By integrating with production engines like vLLM and TensorRT-LLM, SPEED-Bench allows practitioners to analyze system behaviors often masked by other benchmarks. We highlight this by quantifying how synthetic inputs overestimate real-world throughput, identifying batch-size dependent optimal draft lengths and biases in low-diversity data, and analyzing the caveats of vocabulary pruning in state-of-the-art drafters. We release SPEED-Bench to establish a unified evaluation standard for practical comparisons of SD algorithms.