BanditSpec : Décodage spéculatif adaptatif via des algorithmes de bandit

papers.abstract

Le décodage spéculatif est apparu comme une méthode populaire pour accélérer l'inférence des modèles de langage de grande taille (LLMs) tout en conservant leurs performances supérieures en génération de texte. Les méthodes précédentes adoptent soit une configuration fixe de décodage spéculatif indépendamment des tokens de préfixe, soit entraînent des modèles de brouillon de manière hors ligne ou en ligne pour les aligner avec le contexte. Cet article propose un cadre d'apprentissage en ligne sans entraînement pour choisir de manière adaptative la configuration des hyperparamètres du décodage spéculatif pendant la génération du texte. Nous formulons d'abord ce problème de sélection d'hyperparamètres comme un problème de bandit multi-bras et fournissons un cadre général de décodage spéculatif, BanditSpec. De plus, deux algorithmes de sélection d'hyperparamètres basés sur le bandit, UCBSpec et EXP3Spec, sont conçus et analysés en termes d'une nouvelle quantité, le regret du temps d'arrêt. Nous bornons supérieurement ce regret dans des contextes de récompense stochastique et adversarial. En dérivant un résultat d'impossibilité information-théorique, il est montré que la performance en regret de UCBSpec est optimale à des constantes universelles près. Enfin, des expériences empiriques approfondies avec LLaMA3 et Qwen2 démontrent que nos algorithmes sont efficaces par rapport aux méthodes existantes, et que le débit est proche du meilleur hyperparamètre oracle dans des scénarios simulés de service LLM avec des invites d'entrée variées.

English

Speculative decoding has emerged as a popular method to accelerate the inference of Large Language Models (LLMs) while retaining their superior text generation performance. Previous methods either adopt a fixed speculative decoding configuration regardless of the prefix tokens, or train draft models in an offline or online manner to align them with the context. This paper proposes a training-free online learning framework to adaptively choose the configuration of the hyperparameters for speculative decoding as text is being generated. We first formulate this hyperparameter selection problem as a Multi-Armed Bandit problem and provide a general speculative decoding framework BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms, UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity, the stopping time regret. We upper bound this regret under both stochastic and adversarial reward settings. By deriving an information-theoretic impossibility result, it is shown that the regret performance of UCBSpec is optimal up to universal constants. Finally, extensive empirical experiments with LLaMA3 and Qwen2 demonstrate that our algorithms are effective compared to existing methods, and the throughput is close to the oracle best hyperparameter in simulated real-life LLM serving scenarios with diverse input prompts.

BanditSpec : Décodage spéculatif adaptatif via des algorithmes de bandit

BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms

papers.abstract

Support