Наградоориентированное спекулятивное декодирование для эффективного рассуждения в модели с ограниченной памятью.
Reward-Guided Speculative Decoding for Efficient LLM Reasoning
January 31, 2025
Авторы: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong
cs.AI
Аннотация
Мы представляем Reward-Guided Speculative Decoding (RSD) - новую концепцию, направленную на улучшение эффективности вывода в больших языковых моделях (LLMs). RSD синергетически объединяет легковесную рабочую модель с более мощной целевой моделью, включая управляемое смещение для приоритизации высоко-вознаграждаемых результатов, в отличие от существующих методов спекулятивного декодирования, которые настаивают на строгой безпристрастности. RSD использует модель вознаграждения процесса для оценки промежуточных шагов декодирования и динамически принимает решение о вызове целевой модели, оптимизируя баланс между вычислительной стоимостью и качеством вывода. Мы теоретически демонстрируем, что стратегия смешивания на основе порога достигает оптимального баланса между использованием ресурсов и производительностью. Обширные оценки на сложных бенчмарках рассуждения, включая задачи уровня Олимпиады, показывают, что RSD обеспечивает значительное увеличение эффективности по сравнению с декодированием только с использованием целевой модели (до 4,4 раза меньше операций с плавающей запятой), при этом достигая значительно лучшей точности, чем параллельный метод декодирования в среднем (до +3,5). Эти результаты подчеркивают RSD как надежный и экономически эффективный подход для развертывания LLMs в ресурсоемких сценариях.
English
We introduce Reward-Guided Speculative Decoding (RSD), a novel framework
aimed at improving the efficiency of inference in large language models (LLMs).
RSD synergistically combines a lightweight draft model with a more powerful
target model, incorporating a controlled bias to prioritize high-reward
outputs, in contrast to existing speculative decoding methods that enforce
strict unbiasedness. RSD employs a process reward model to evaluate
intermediate decoding steps and dynamically decide whether to invoke the target
model, optimizing the trade-off between computational cost and output quality.
We theoretically demonstrate that a threshold-based mixture strategy achieves
an optimal balance between resource utilization and performance. Extensive
evaluations on challenging reasoning benchmarks, including Olympiad-level
tasks, show that RSD delivers significant efficiency gains against decoding
with the target model only (up to 4.4x fewer FLOPs), while achieving
significant better accuracy than parallel decoding method on average (up to
+3.5). These results highlight RSD as a robust and cost-effective approach for
deploying LLMs in resource-intensive scenarios.Summary
AI-Generated Summary