SPEED-Bench: Унифицированный и разнообразный бенчмарк для спекулятивного декодирования

Аннотация

Спекулятивное декодирование (SD) стало ключевой техникой для ускорения вывода больших языковых моделей (LLM). В отличие от детерминированных системных оптимизаций, производительность SD по своей природе зависит от данных, что означает необходимость использования разнообразных и репрезентативных рабочих нагрузок для точной оценки её эффективности. Существующие бенчмарки страдают от ограниченного разнообразия задач, недостаточной поддержки оценки, ориентированной на пропускную способность, и reliance на высокоуровневые реализации, которые не отражают производственные среды. Чтобы решить эту проблему, мы представляем SPEED-Bench — комплексный набор, предназначенный для стандартизации оценки SD в различных семантических доменах и реалистичных режимах обслуживания. SPEED-Bench предлагает тщательно отобранный качественный раздел данных, выбранный с приоритетом семантического разнообразия образцов. Кроме того, он включает раздел данных для оценки пропускной способности, позволяющий оценить ускорение в диапазоне уровней параллелизма — от чувствительных к задержкам сценариев с малым размером пакета до ориентированных на пропускную способность сценариев высокой нагрузки. Благодаря интеграции с производственными движками, такими как vLLM и TensorRT-LLM, SPEED-Bench позволяет практикам анализировать системное поведение, часто скрытое другими бенчмарками. Мы демонстрируем это, количественно оценивая, как синтетические входные данные завышают реальную пропускную способность, выявляя оптимальную длину черновых вариантов, зависящую от размера пакета, и смещения в данных с низким разнообразием, а также анализируя подводные камни pruning словаря в современных drafter'ах. Мы публикуем SPEED-Bench, чтобы установить единый стандарт оценки для практического сравнения алгоритмов SD.

English

Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic system optimizations, SD performance is inherently data-dependent, meaning that diverse and representative workloads are essential for accurately measuring its effectiveness. Existing benchmarks suffer from limited task diversity, inadequate support for throughput-oriented evaluation, and a reliance on high-level implementations that fail to reflect production environments. To address this, we introduce SPEED-Bench, a comprehensive suite designed to standardize SD evaluation across diverse semantic domains and realistic serving regimes. SPEED-Bench offers a carefully curated Qualitative data split, selected by prioritizing semantic diversity across the data samples. Additionally, it includes a Throughput data split, allowing speedup evaluation across a range of concurrencies, from latency-sensitive low-batch settings to throughput-oriented high-load scenarios. By integrating with production engines like vLLM and TensorRT-LLM, SPEED-Bench allows practitioners to analyze system behaviors often masked by other benchmarks. We highlight this by quantifying how synthetic inputs overestimate real-world throughput, identifying batch-size dependent optimal draft lengths and biases in low-diversity data, and analyzing the caveats of vocabulary pruning in state-of-the-art drafters. We release SPEED-Bench to establish a unified evaluation standard for practical comparisons of SD algorithms.

SPEED-Bench: Унифицированный и разнообразный бенчмарк для спекулятивного декодирования

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Аннотация

Support