SPEED-Bench: Un Benchmark Unificado y Diverso para la Decodificación Especulativa

Resumen

La Decodificación Especulativa (SD, por sus siglas en inglés) ha surgido como una técnica fundamental para acelerar la inferencia de los Modelos de Lenguaje a Gran Escala (LLM). A diferencia de las optimizaciones deterministas del sistema, el rendimiento de la SD es inherentemente dependiente de los datos, lo que significa que se necesitan cargas de trabajo diversas y representativas para medir con precisión su efectividad. Los puntos de referencia existentes adolecen de una diversidad de tareas limitada, un apoyo inadecuado para la evaluación orientada al rendimiento y una dependencia de implementaciones de alto nivel que no reflejan los entornos de producción. Para abordar esto, presentamos SPEED-Bench, un conjunto exhaustivo diseñado para estandarizar la evaluación de la SD en diversos dominios semánticos y regímenes de servicio realistas. SPEED-Bench ofrece una división de datos cualitativos cuidadosamente seleccionada, priorizando la diversidad semántica entre las muestras de datos. Adicionalmente, incluye una división de datos de Rendimiento, que permite evaluar la aceleración en un rango de concurrencias, desde configuraciones de baja carga sensibles a la latencia hasta escenarios de alta carga orientados al rendimiento. Al integrarse con motores de producción como vLLM y TensorRT-LLM, SPEED-Bench permite a los profesionales analizar comportamientos del sistema que a menudo son enmascarados por otros puntos de referencia. Destacamos esto cuantificando cómo las entradas sintéticas sobrestiman el rendimiento en el mundo real, identificando longitudes óptimas de borradores dependientes del tamaño del lote y sesgos en datos de baja diversidad, y analizando las salvedades de la poda de vocabulario en los borradores más avanzados. Publicamos SPEED-Bench para establecer un estándar de evaluación unificado que permita comparaciones prácticas de los algoritmos de SD.

English

Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic system optimizations, SD performance is inherently data-dependent, meaning that diverse and representative workloads are essential for accurately measuring its effectiveness. Existing benchmarks suffer from limited task diversity, inadequate support for throughput-oriented evaluation, and a reliance on high-level implementations that fail to reflect production environments. To address this, we introduce SPEED-Bench, a comprehensive suite designed to standardize SD evaluation across diverse semantic domains and realistic serving regimes. SPEED-Bench offers a carefully curated Qualitative data split, selected by prioritizing semantic diversity across the data samples. Additionally, it includes a Throughput data split, allowing speedup evaluation across a range of concurrencies, from latency-sensitive low-batch settings to throughput-oriented high-load scenarios. By integrating with production engines like vLLM and TensorRT-LLM, SPEED-Bench allows practitioners to analyze system behaviors often masked by other benchmarks. We highlight this by quantifying how synthetic inputs overestimate real-world throughput, identifying batch-size dependent optimal draft lengths and biases in low-diversity data, and analyzing the caveats of vocabulary pruning in state-of-the-art drafters. We release SPEED-Bench to establish a unified evaluation standard for practical comparisons of SD algorithms.

SPEED-Bench: Un Benchmark Unificado y Diverso para la Decodificación Especulativa

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Resumen

Support