SPEED-Bench: Ein einheitlicher und vielfältiger Benchmark für spekulatives Decodieren

Zusammenfassung

Spekulatives Decodieren (SD) hat sich als entscheidende Technik zur Beschleunigung der Inferenz von Large Language Models (LLMs) etabliert. Im Gegensatz zu deterministischen Systemoptimierungen ist die SD-Leistung inhärent datenabhängig, was bedeutet, dass vielfältige und repräsentative Workloads für eine genaue Messung ihrer Effektivität unerlässlich sind. Bestehende Benchmarks leiden unter begrenzter Aufgabenvielfalt, unzureichender Unterstützung für durchsatzorientierte Evaluationen und einer Abhängigkeit von hochrangigen Implementierungen, die Produktionsumgebungen nicht widerspiegeln. Um dies zu adressieren, führen wir SPEED-Bench ein, eine umfassende Suite zur Standardisierung der SD-Bewertung über verschiedene semantische Domänen und realistische Betriebsregime hinweg. SPEED-Bench bietet eine sorgfältig kuratierte qualitative Datenteilung, die durch Priorisierung der semantischen Vielfalt der Datenbeispiele ausgewählt wurde. Zusätzlich enthält es eine Durchsatz-Datenteilung, die eine Beschleunigungsbewertung über eine Reihe von Parallelitätsgraden ermöglicht – von latenzsensiblen Low-Batch-Einstellungen bis hin zu durchsatzorientierten Hochlast-Szenarien. Durch die Integration in Produktions-Engines wie vLLM und TensorRT-LLM ermöglicht SPEED-Bench Praktikern, Systemverhalten zu analysieren, das von anderen Benchmarks oft verdeckt wird. Wir unterstreichen dies, indem wir quantifizieren, wie synthetische Eingaben den realen Durchsatz überschätzen, batchgrößenabhängige optimale Draft-Längen und Verzerrungen in datenarmer Umgebung identifizieren sowie die Fallstricke des Vokabular-Beschneidens in modernsten Draft-Modellen analysieren. Wir veröffentlichen SPEED-Bench, um einen einheitlichen Bewertungsstandard für praktische Vergleiche von SD-Algorithmen zu etablieren.

English

Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic system optimizations, SD performance is inherently data-dependent, meaning that diverse and representative workloads are essential for accurately measuring its effectiveness. Existing benchmarks suffer from limited task diversity, inadequate support for throughput-oriented evaluation, and a reliance on high-level implementations that fail to reflect production environments. To address this, we introduce SPEED-Bench, a comprehensive suite designed to standardize SD evaluation across diverse semantic domains and realistic serving regimes. SPEED-Bench offers a carefully curated Qualitative data split, selected by prioritizing semantic diversity across the data samples. Additionally, it includes a Throughput data split, allowing speedup evaluation across a range of concurrencies, from latency-sensitive low-batch settings to throughput-oriented high-load scenarios. By integrating with production engines like vLLM and TensorRT-LLM, SPEED-Bench allows practitioners to analyze system behaviors often masked by other benchmarks. We highlight this by quantifying how synthetic inputs overestimate real-world throughput, identifying batch-size dependent optimal draft lengths and biases in low-diversity data, and analyzing the caveats of vocabulary pruning in state-of-the-art drafters. We release SPEED-Bench to establish a unified evaluation standard for practical comparisons of SD algorithms.

SPEED-Bench: Ein einheitlicher und vielfältiger Benchmark für spekulatives Decodieren

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Zusammenfassung

Support