BanditSpec: Адаптивное спекулятивное декодирование с использованием бандитских алгоритмов
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms
May 21, 2025
Авторы: Yunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan, Tianyu Pang, Chao Du, Vincent Y. F. Tan, Zhuoran Yang
cs.AI
Аннотация
Спекулятивное декодирование стало популярным методом ускорения вывода крупных языковых моделей (LLM) при сохранении их превосходной производительности в генерации текста. Предыдущие методы либо использовали фиксированную конфигурацию спекулятивного декодирования независимо от префиксных токенов, либо обучали черновые модели оффлайн или онлайн для их согласования с контекстом. В данной статье предлагается обучающийся онлайн фреймворк без необходимости обучения, который адаптивно выбирает конфигурацию гиперпараметров для спекулятивного декодирования по мере генерации текста. Сначала мы формулируем эту задачу выбора гиперпараметров как проблему многорукого бандита и предоставляем общий фреймворк спекулятивного декодирования BanditSpec. Далее разрабатываются и анализируются два алгоритма выбора гиперпараметров на основе бандитов, UCBSpec и EXP3Spec, с точки зрения новой величины — сожаления о времени остановки. Мы ограничиваем это сожаление сверху как в стохастических, так и в адверсарных настройках вознаграждений. Путем вывода информационно-теоретического результата о невозможности показано, что производительность сожаления UCBSpec оптимальна с точностью до универсальных констант. Наконец, обширные эмпирические эксперименты с моделями LLaMA3 и Qwen2 демонстрируют, что наши алгоритмы эффективны по сравнению с существующими методами, а пропускная способность близка к оракулу лучшего гиперпараметра в смоделированных реальных сценариях обслуживания LLM с разнообразными входными запросами.
English
Speculative decoding has emerged as a popular method to accelerate the
inference of Large Language Models (LLMs) while retaining their superior text
generation performance. Previous methods either adopt a fixed speculative
decoding configuration regardless of the prefix tokens, or train draft models
in an offline or online manner to align them with the context. This paper
proposes a training-free online learning framework to adaptively choose the
configuration of the hyperparameters for speculative decoding as text is being
generated. We first formulate this hyperparameter selection problem as a
Multi-Armed Bandit problem and provide a general speculative decoding framework
BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms,
UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity,
the stopping time regret. We upper bound this regret under both stochastic and
adversarial reward settings. By deriving an information-theoretic impossibility
result, it is shown that the regret performance of UCBSpec is optimal up to
universal constants. Finally, extensive empirical experiments with LLaMA3 and
Qwen2 demonstrate that our algorithms are effective compared to existing
methods, and the throughput is close to the oracle best hyperparameter in
simulated real-life LLM serving scenarios with diverse input prompts.Summary
AI-Generated Summary