SPEED-Bench: Un Benchmark Unificato e Diversificato per il Decodifica Speculativa

Abstract

Lo Speculative Decoding (SD) è emerso come una tecnica fondamentale per accelerare l'inferenza dei Large Language Model (LLM). A differenza delle ottimizzazioni di sistema deterministiche, le prestazioni dello SD sono intrinsecamente dipendenti dai dati, il che significa che carichi di lavoro diversificati e rappresentativi sono essenziali per misurarne accuratamente l'efficacia. I benchmark esistenti soffrono di una limitata diversità dei task, di un supporto inadeguato per la valutazione orientata alla produttività (throughput) e di una dipendenza da implementazioni di alto livello che non riflettono gli ambienti di produzione. Per affrontare questo problema, introduciamo SPEED-Bench, una suite completa progettata per standardizzare la valutazione dello SD attraverso diversi domini semantici e regimi di servizio realistici. SPEED-Bench offre una partizione dei dati qualitativa accuratamente curata, selezionata dando priorità alla diversità semantica tra i campioni di dati. Inoltre, include una partizione dei dati per la produttività (Throughput), che consente la valutazione del miglioramento delle prestazioni su un intervallo di concorrenze, dalle impostazioni a basso batch sensibili alla latenza, agli scenari ad alto carico orientati alla produttività. Integrandosi con motori di produzione come vLLM e TensorRT-LLM, SPEED-Bench consente ai professionisti di analizzare comportamenti del sistema che spesso sono mascherati da altri benchmark. Sottolineiamo questo aspetto quantificando come gli input sintetici sovrastimino la produttività nel mondo reale, identificando le lunghezze ottimali delle bozze dipendenti dalla dimensione del batch e i bias nei dati a bassa diversità, e analizzando le avvertenze della potatura del vocabolario nei drafters più all'avanguardia. Rilasciamo SPEED-Bench per stabilire uno standard di valutazione unificato per confronti pratici degli algoritmi di Speculative Decoding.

English

Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic system optimizations, SD performance is inherently data-dependent, meaning that diverse and representative workloads are essential for accurately measuring its effectiveness. Existing benchmarks suffer from limited task diversity, inadequate support for throughput-oriented evaluation, and a reliance on high-level implementations that fail to reflect production environments. To address this, we introduce SPEED-Bench, a comprehensive suite designed to standardize SD evaluation across diverse semantic domains and realistic serving regimes. SPEED-Bench offers a carefully curated Qualitative data split, selected by prioritizing semantic diversity across the data samples. Additionally, it includes a Throughput data split, allowing speedup evaluation across a range of concurrencies, from latency-sensitive low-batch settings to throughput-oriented high-load scenarios. By integrating with production engines like vLLM and TensorRT-LLM, SPEED-Bench allows practitioners to analyze system behaviors often masked by other benchmarks. We highlight this by quantifying how synthetic inputs overestimate real-world throughput, identifying batch-size dependent optimal draft lengths and biases in low-diversity data, and analyzing the caveats of vocabulary pruning in state-of-the-art drafters. We release SPEED-Bench to establish a unified evaluation standard for practical comparisons of SD algorithms.

SPEED-Bench: Un Benchmark Unificato e Diversificato per il Decodifica Speculativa

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Abstract

Support