SPEED-Bench: Um Benchmark Unificado e Diversificado para Decodificação Especulativa

Resumo

A Decodificação Especulativa (DE) emergiu como uma técnica crítica para acelerar a inferência de Modelos de Linguagem de Grande Porte (LLMs). Ao contrário de otimizações de sistema determinísticas, o desempenho da DE é inerentemente dependente dos dados, o que significa que cargas de trabalho diversificadas e representativas são essenciais para medir com precisão a sua eficácia. Os benchmarks existentes sofrem com diversidade limitada de tarefas, suporte inadequado para avaliação orientada à taxa de transferência (throughput) e uma dependência de implementações de alto nível que não refletem os ambientes de produção. Para resolver isso, introduzimos o SPEED-Bench, um conjunto abrangente projetado para padronizar a avaliação da DE em diversos domínios semânticos e regimes realistas de serviço. O SPEED-Bench oferece uma divisão de dados *Qualitativa* cuidadosamente selecionada, priorizando a diversidade semântica entre as amostras de dados. Adicionalmente, inclui uma divisão de dados de *Throughput*, permitindo a avaliação de aceleração em uma variedade de níveis de concorrência, desde configurações de baixo lote sensíveis à latência até cenários de alta carga orientados à taxa de transferência. Ao integrar-se com motores de produção como vLLM e TensorRT-LLM, o SPEED-Bench permite que os profissionais analisem comportamentos do sistema frequentemente mascarados por outros benchmarks. Destacamos isso ao quantificar como entradas sintéticas superestimam o *throughput* do mundo real, identificando tamanhos ideais de rascunho dependentes do tamanho do lote e vieses em dados de baixa diversidade, e analisando as ressalvas da poda de vocabulário em *drafters* state-of-the-art. Disponibilizamos o SPEED-Bench para estabelecer um padrão de avaliação unificado para comparações práticas de algoritmos de DE.

English

Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic system optimizations, SD performance is inherently data-dependent, meaning that diverse and representative workloads are essential for accurately measuring its effectiveness. Existing benchmarks suffer from limited task diversity, inadequate support for throughput-oriented evaluation, and a reliance on high-level implementations that fail to reflect production environments. To address this, we introduce SPEED-Bench, a comprehensive suite designed to standardize SD evaluation across diverse semantic domains and realistic serving regimes. SPEED-Bench offers a carefully curated Qualitative data split, selected by prioritizing semantic diversity across the data samples. Additionally, it includes a Throughput data split, allowing speedup evaluation across a range of concurrencies, from latency-sensitive low-batch settings to throughput-oriented high-load scenarios. By integrating with production engines like vLLM and TensorRT-LLM, SPEED-Bench allows practitioners to analyze system behaviors often masked by other benchmarks. We highlight this by quantifying how synthetic inputs overestimate real-world throughput, identifying batch-size dependent optimal draft lengths and biases in low-diversity data, and analyzing the caveats of vocabulary pruning in state-of-the-art drafters. We release SPEED-Bench to establish a unified evaluation standard for practical comparisons of SD algorithms.

SPEED-Bench: Um Benchmark Unificado e Diversificado para Decodificação Especulativa

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Resumo

Support