BanditSpec: Decodifica Speculativa Adattiva tramite Algoritmi Bandit
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms
May 21, 2025
Autori: Yunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan, Tianyu Pang, Chao Du, Vincent Y. F. Tan, Zhuoran Yang
cs.AI
Abstract
Il decoding speculativo è emerso come un metodo popolare per accelerare l'inferenza dei Large Language Models (LLM) mantenendo la loro superiore performance nella generazione di testo. I metodi precedenti adottano una configurazione fissa di decoding speculativo indipendentemente dai token di prefisso, oppure addestrano modelli draft in modo offline o online per allinearli al contesto. Questo articolo propone un framework di apprendimento online senza addestramento per scegliere in modo adattivo la configurazione degli iperparametri per il decoding speculativo mentre il testo viene generato. Inizialmente, formuliamo questo problema di selezione degli iperparametri come un problema di Multi-Armed Bandit e forniamo un framework generale di decoding speculativo chiamato BanditSpec. Inoltre, vengono progettati e analizzati due algoritmi di selezione degli iperparametri basati su bandit, UCBSpec e EXP3Spec, in termini di una nuova quantità, il rimpianto del tempo di arresto. Limitiamo superiormente questo rimpianto sia in contesti di ricompensa stocastica che avversaria. Derivando un risultato di impossibilità teorico-informativa, si dimostra che la performance del rimpianto di UCBSpec è ottimale fino a costanti universali. Infine, esperimenti empirici estesi con LLaMA3 e Qwen2 dimostrano che i nostri algoritmi sono efficaci rispetto ai metodi esistenti, e la produttività è vicina al miglior iperparametro oracolo in scenari simulati di servizio LLM con prompt di input diversi.
English
Speculative decoding has emerged as a popular method to accelerate the
inference of Large Language Models (LLMs) while retaining their superior text
generation performance. Previous methods either adopt a fixed speculative
decoding configuration regardless of the prefix tokens, or train draft models
in an offline or online manner to align them with the context. This paper
proposes a training-free online learning framework to adaptively choose the
configuration of the hyperparameters for speculative decoding as text is being
generated. We first formulate this hyperparameter selection problem as a
Multi-Armed Bandit problem and provide a general speculative decoding framework
BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms,
UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity,
the stopping time regret. We upper bound this regret under both stochastic and
adversarial reward settings. By deriving an information-theoretic impossibility
result, it is shown that the regret performance of UCBSpec is optimal up to
universal constants. Finally, extensive empirical experiments with LLaMA3 and
Qwen2 demonstrate that our algorithms are effective compared to existing
methods, and the throughput is close to the oracle best hyperparameter in
simulated real-life LLM serving scenarios with diverse input prompts.