ChatPaper.aiChatPaper

BanditSpec: Adaptives spekulatives Decodieren mittels Bandit-Algorithmen

BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms

May 21, 2025
Autoren: Yunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan, Tianyu Pang, Chao Du, Vincent Y. F. Tan, Zhuoran Yang
cs.AI

Zusammenfassung

Spekulative Dekodierung hat sich als beliebte Methode zur Beschleunigung der Inferenz von Large Language Models (LLMs) etabliert, während deren überlegene Textgenerierungsleistung erhalten bleibt. Bisherige Methoden verwenden entweder eine feste spekulative Dekodierungskonfiguration unabhängig von den Präfix-Tokens oder trainieren Entwurfsmodelle offline oder online, um sie an den Kontext anzupassen. Dieses Papier schlägt ein trainingsfreies Online-Lernframework vor, das die Konfiguration der Hyperparameter für die spekulative Dekodierung adaptiv während der Texterzeugung auswählt. Wir formulieren dieses Hyperparameter-Auswahlproblem zunächst als ein Multi-Armed Bandit Problem und stellen ein allgemeines spekulatives Dekodierungsframework, BanditSpec, vor. Darüber hinaus werden zwei bandit-basierte Hyperparameter-Auswahlalgorithmen, UCBSpec und EXP3Spec, entworfen und im Hinblick auf eine neuartige Größe, die Stoppzeit-Regret, analysiert. Wir begrenzen diesen Regret sowohl unter stochastischen als auch unter adversariellen Belohnungseinstellungen. Durch die Ableitung eines informationstheoretischen Unmöglichkeitsergebnisses wird gezeigt, dass die Regret-Leistung von UCBSpec bis auf universelle Konstanten optimal ist. Schließlich demonstrieren umfangreiche empirische Experimente mit LLaMA3 und Qwen2, dass unsere Algorithmen im Vergleich zu bestehenden Methoden effektiv sind und der Durchsatz nahe am besten Hyperparameter-Orakel in simulierten realen LLM-Serverszenarien mit diversen Eingabeaufforderungen liegt.
English
Speculative decoding has emerged as a popular method to accelerate the inference of Large Language Models (LLMs) while retaining their superior text generation performance. Previous methods either adopt a fixed speculative decoding configuration regardless of the prefix tokens, or train draft models in an offline or online manner to align them with the context. This paper proposes a training-free online learning framework to adaptively choose the configuration of the hyperparameters for speculative decoding as text is being generated. We first formulate this hyperparameter selection problem as a Multi-Armed Bandit problem and provide a general speculative decoding framework BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms, UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity, the stopping time regret. We upper bound this regret under both stochastic and adversarial reward settings. By deriving an information-theoretic impossibility result, it is shown that the regret performance of UCBSpec is optimal up to universal constants. Finally, extensive empirical experiments with LLaMA3 and Qwen2 demonstrate that our algorithms are effective compared to existing methods, and the throughput is close to the oracle best hyperparameter in simulated real-life LLM serving scenarios with diverse input prompts.

Summary

AI-Generated Summary

PDF12May 22, 2025