BanditSpec: Decodificación Especulativa Adaptativa mediante Algoritmos de Bandido
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms
May 21, 2025
Autores: Yunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan, Tianyu Pang, Chao Du, Vincent Y. F. Tan, Zhuoran Yang
cs.AI
Resumen
La decodificación especulativa ha surgido como un método popular para acelerar la inferencia de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) mientras se conserva su rendimiento superior en la generación de texto. Los métodos anteriores adoptan una configuración fija de decodificación especulativa independientemente de los tokens de prefijo, o entrenan modelos de borrador de manera offline u online para alinearlos con el contexto. Este artículo propone un marco de aprendizaje online sin entrenamiento para elegir de manera adaptativa la configuración de los hiperparámetros de la decodificación especulativa a medida que se genera el texto. Primero, formulamos este problema de selección de hiperparámetros como un problema de Bandido Multibrazo y proporcionamos un marco general de decodificación especulativa llamado BanditSpec. Además, se diseñan y analizan dos algoritmos de selección de hiperparámetros basados en bandidos, UCBSpec y EXP3Spec, en términos de una nueva cantidad: el arrepentimiento del tiempo de parada. Acotamos superiormente este arrepentimiento tanto en entornos de recompensa estocástica como adversarial. Al derivar un resultado de imposibilidad teórico-informacional, se demuestra que el rendimiento en arrepentimiento de UCBSpec es óptimo hasta constantes universales. Finalmente, extensos experimentos empíricos con LLaMA3 y Qwen2 demuestran que nuestros algoritmos son efectivos en comparación con los métodos existentes, y el rendimiento se acerca al mejor hiperparámetro oráculo en escenarios simulados de servicio de LLMs en la vida real con entradas de texto diversas.
English
Speculative decoding has emerged as a popular method to accelerate the
inference of Large Language Models (LLMs) while retaining their superior text
generation performance. Previous methods either adopt a fixed speculative
decoding configuration regardless of the prefix tokens, or train draft models
in an offline or online manner to align them with the context. This paper
proposes a training-free online learning framework to adaptively choose the
configuration of the hyperparameters for speculative decoding as text is being
generated. We first formulate this hyperparameter selection problem as a
Multi-Armed Bandit problem and provide a general speculative decoding framework
BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms,
UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity,
the stopping time regret. We upper bound this regret under both stochastic and
adversarial reward settings. By deriving an information-theoretic impossibility
result, it is shown that the regret performance of UCBSpec is optimal up to
universal constants. Finally, extensive empirical experiments with LLaMA3 and
Qwen2 demonstrate that our algorithms are effective compared to existing
methods, and the throughput is close to the oracle best hyperparameter in
simulated real-life LLM serving scenarios with diverse input prompts.Summary
AI-Generated Summary