Модель Draft знает, когда остановиться: политика самопроверки длины для спекулятивного декодирования
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
November 27, 2024
Авторы: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
cs.AI
Аннотация
Спекулятивное декодирование (SD) стало важной техникой для ускорения скорости вывода больших языковых моделей. Традиционные методы SD используют фиксированную длину черновика, что не учитывает сложность генерации токенов в различных задачах. В данной статье мы рассматриваем эту проблему и представляем SVIP - политику динамической длины черновика, учитывающую сложность генерации. Основываясь на теоретической нижней границе скорости принятия токенов черновика и ее приближении во время вывода, SVIP адаптивно определяет длины черновых последовательностей на основе энтропии распределения каждого токена черновика. Экспериментальные результаты на основных бенчмарках и фреймворках SD демонстрируют превосходную производительность SVIP, достигая ускорения времени работы на стенде до 20\% по сравнению с базовыми методами SD и ускорения на 60\% на MT-Bench для генерации длинных форматов до 8K токенов. Более того, SVIP полностью лишен обучения и совместим с любыми существующими методами SD, генерирующими токены черновика авторегрессивно. Экспериментальные результаты также показывают, что SVIP обеспечивает последовательное улучшение времени работы на фоне GliDe & CaPE и EAGLE-2.
English
Speculative Decoding (SD) has become an important technique in accelerating
the inference speed of large language models. Conventional SD methods employ a
fixed draft length, which ignores the token generation difficulty across tasks.
Consequently, in this paper, we address such an issue and introduce SVIP - a
difficulty-aware dynamic draft length policy for speculative decoding systems.
Based on a theoretical lower bound of draft token acceptance rate and its
inference-time approximation, SVIP adaptively determines the lengths of draft
sequences based on the entropy of each draft token distribution. Experimental
results on mainstream SD benchmarks and frameworks demonstrate the superior
performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over
baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up
to 8K tokens. Moreover, SVIP is totally training-free and compatible with any
existing SD methods that generate draft tokens autoregressively. Experimental
results also show that SVIP yields consistent walltime improvement on top of
GliDe & CaPE and EAGLE-2.Summary
AI-Generated Summary