Каскадное спекулятивное черновирование для еще более быстрого вывода в языковых моделях
Cascade Speculative Drafting for Even Faster LLM Inference
December 18, 2023
Авторы: Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang
cs.AI
Аннотация
Спекулятивное декодирование повышает эффективность крупных языковых моделей (LLM) за счет использования черновой модели для создания черновиков, которые затем проверяются более крупной целевой моделью. Однако процесс создания черновиков в спекулятивном декодировании включает медленное авторегрессивное генерацию и генерацию токенов различной важности с одинаковым распределением времени. Эти две неэффективности приводят к его неоптимальной производительности. Для решения этой проблемы мы представляем каскадное спекулятивное создание черновиков (CS. Drafting) — новый подход, который использует два типа каскадов. Вертикальный каскад устраняет авторегрессивную генерацию в нейронных моделях. Горизонтальный каскад обеспечивает эффективное распределение времени при создании черновиков, что подтверждается нашим теоретическим анализом. Объединяя оба каскада, наш алгоритм CS. Drafting достиг дополнительного ускорения до 72 процентов по сравнению со спекулятивным декодированием в наших экспериментах, сохраняя при этом то же распределение выходных данных.
English
Speculative decoding enhances the efficiency of large language models (LLMs)
by leveraging a draft model to draft for a larger target model to review.
However, drafting in speculative decoding involves slow autoregressive
generation and generating tokens of different importance with the same time
allocation. These two inefficiencies lead to its suboptimal performance. To
address this issue, we introduce Cascade Speculative Drafting (CS. Drafting), a
novel approach that employs two types of cascades. The Vertical Cascade
eliminates autoregressive generation from neural models. The Horizontal Cascade
constitutes efficient time allocation in drafting with its optimality supported
by our theoretical analysis. Combining both cascades, our CS. Drafting
algorithm has achieved up to 72 percent additional speedup over speculative
decoding in our experiments while keeping the same output distribution.