Drafting Speculativo a Cascata per un'Inferenza Ancora Più Veloce nei Modelli Linguistici di Grande Dimensione
Cascade Speculative Drafting for Even Faster LLM Inference
December 18, 2023
Autori: Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang
cs.AI
Abstract
Il decoding speculativo migliora l'efficienza dei grandi modelli linguistici (LLM) sfruttando un modello di bozza per generare proposte che un modello target più grande può poi revisionare. Tuttavia, la generazione di bozze nel decoding speculativo comporta una lenta generazione autoregressiva e l'allocazione dello stesso tempo per token di diversa importanza. Queste due inefficienze portano a prestazioni subottimali. Per affrontare questo problema, introduciamo il Cascade Speculative Drafting (CS. Drafting), un approccio innovativo che utilizza due tipi di cascate. La Cascata Verticale elimina la generazione autoregressiva dai modelli neurali. La Cascata Orizzontale garantisce un'allocazione efficiente del tempo nella generazione di bozze, con la sua ottimalità supportata dalla nostra analisi teorica. Combinando entrambe le cascate, il nostro algoritmo CS. Drafting ha ottenuto un incremento di velocità fino al 72% rispetto al decoding speculativo nei nostri esperimenti, mantenendo la stessa distribuzione di output.
English
Speculative decoding enhances the efficiency of large language models (LLMs)
by leveraging a draft model to draft for a larger target model to review.
However, drafting in speculative decoding involves slow autoregressive
generation and generating tokens of different importance with the same time
allocation. These two inefficiencies lead to its suboptimal performance. To
address this issue, we introduce Cascade Speculative Drafting (CS. Drafting), a
novel approach that employs two types of cascades. The Vertical Cascade
eliminates autoregressive generation from neural models. The Horizontal Cascade
constitutes efficient time allocation in drafting with its optimality supported
by our theoretical analysis. Combining both cascades, our CS. Drafting
algorithm has achieved up to 72 percent additional speedup over speculative
decoding in our experiments while keeping the same output distribution.