BanditSpec : Décodage spéculatif adaptatif via des algorithmes de bandit
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms
May 21, 2025
Auteurs: Yunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan, Tianyu Pang, Chao Du, Vincent Y. F. Tan, Zhuoran Yang
cs.AI
Résumé
Le décodage spéculatif est apparu comme une méthode populaire pour accélérer l'inférence des modèles de langage de grande taille (LLMs) tout en conservant leurs performances supérieures en génération de texte. Les méthodes précédentes adoptent soit une configuration fixe de décodage spéculatif indépendamment des tokens de préfixe, soit entraînent des modèles de brouillon de manière hors ligne ou en ligne pour les aligner avec le contexte. Cet article propose un cadre d'apprentissage en ligne sans entraînement pour choisir de manière adaptative la configuration des hyperparamètres du décodage spéculatif pendant la génération du texte. Nous formulons d'abord ce problème de sélection d'hyperparamètres comme un problème de bandit multi-bras et fournissons un cadre général de décodage spéculatif, BanditSpec. De plus, deux algorithmes de sélection d'hyperparamètres basés sur le bandit, UCBSpec et EXP3Spec, sont conçus et analysés en termes d'une nouvelle quantité, le regret du temps d'arrêt. Nous bornons supérieurement ce regret dans des contextes de récompense stochastique et adversarial. En dérivant un résultat d'impossibilité information-théorique, il est montré que la performance en regret de UCBSpec est optimale à des constantes universelles près. Enfin, des expériences empiriques approfondies avec LLaMA3 et Qwen2 démontrent que nos algorithmes sont efficaces par rapport aux méthodes existantes, et que le débit est proche du meilleur hyperparamètre oracle dans des scénarios simulés de service LLM avec des invites d'entrée variées.
English
Speculative decoding has emerged as a popular method to accelerate the
inference of Large Language Models (LLMs) while retaining their superior text
generation performance. Previous methods either adopt a fixed speculative
decoding configuration regardless of the prefix tokens, or train draft models
in an offline or online manner to align them with the context. This paper
proposes a training-free online learning framework to adaptively choose the
configuration of the hyperparameters for speculative decoding as text is being
generated. We first formulate this hyperparameter selection problem as a
Multi-Armed Bandit problem and provide a general speculative decoding framework
BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms,
UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity,
the stopping time regret. We upper bound this regret under both stochastic and
adversarial reward settings. By deriving an information-theoretic impossibility
result, it is shown that the regret performance of UCBSpec is optimal up to
universal constants. Finally, extensive empirical experiments with LLaMA3 and
Qwen2 demonstrate that our algorithms are effective compared to existing
methods, and the throughput is close to the oracle best hyperparameter in
simulated real-life LLM serving scenarios with diverse input prompts.Summary
AI-Generated Summary