SPEED-Bench : Un Benchmark Unifié et Diversifié pour le Décodage Spéculatif

Résumé

Le décodage spéculatif (DS) est devenu une technique essentielle pour accélérer l'inférence des grands modèles de langage (LLM). Contrairement aux optimisations système déterministes, la performance du DS est intrinsèquement dépendante des données, ce qui signifie que des charges de travail diverses et représentatives sont cruciales pour mesurer avec précision son efficacité. Les benchmarks existants souffrent d'une diversité de tâches limitée, d'un support inadéquat pour l'évaluation axée sur le débit, et d'une dépendance à des implémentations de haut niveau qui ne reflètent pas les environnements de production. Pour remédier à cela, nous présentons SPEED-Bench, une suite complète conçue pour standardiser l'évaluation du DS sur divers domaines sémantiques et dans des régimes de service réalistes. SPEED-Bench propose une division qualitative des données soigneusement constituée, sélectionnée en priorisant la diversité sémantique des échantillons. De plus, elle inclut une division axée sur le débit, permettant l'évaluation des gains de vitesse sur une gamme de concurrences, allant des configurations à faible lot sensibles à la latence jusqu'aux scénarios à charge élevée optimisés pour le débit. En s'intégrant à des moteurs de production comme vLLM et TensorRT-LLM, SPEED-Bench permet aux praticiens d'analyser des comportements système souvent masqués par d'autres benchmarks. Nous illustrons cela en quantifiant comment les entrées synthétiques surestiment le débit en conditions réelles, en identifiant les longueurs optimales des brouillons qui dépendent de la taille des lots et les biais dans les données à faible diversité, et en analysant les mises en garde concernant l'élagage du vocabulaire dans les générateurs de brouillons les plus avancés. Nous publions SPEED-Bench pour établir une norme d'évaluation unifiée permettant des comparaisons pratiques des algorithmes de DS.

English

Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic system optimizations, SD performance is inherently data-dependent, meaning that diverse and representative workloads are essential for accurately measuring its effectiveness. Existing benchmarks suffer from limited task diversity, inadequate support for throughput-oriented evaluation, and a reliance on high-level implementations that fail to reflect production environments. To address this, we introduce SPEED-Bench, a comprehensive suite designed to standardize SD evaluation across diverse semantic domains and realistic serving regimes. SPEED-Bench offers a carefully curated Qualitative data split, selected by prioritizing semantic diversity across the data samples. Additionally, it includes a Throughput data split, allowing speedup evaluation across a range of concurrencies, from latency-sensitive low-batch settings to throughput-oriented high-load scenarios. By integrating with production engines like vLLM and TensorRT-LLM, SPEED-Bench allows practitioners to analyze system behaviors often masked by other benchmarks. We highlight this by quantifying how synthetic inputs overestimate real-world throughput, identifying batch-size dependent optimal draft lengths and biases in low-diversity data, and analyzing the caveats of vocabulary pruning in state-of-the-art drafters. We release SPEED-Bench to establish a unified evaluation standard for practical comparisons of SD algorithms.

SPEED-Bench : Un Benchmark Unifié et Diversifié pour le Décodage Spéculatif

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Résumé

Support