ChatPaper.aiChatPaper

Cascade Speculatieve Drafting voor Nog Snellere LLM-inferentie

Cascade Speculative Drafting for Even Faster LLM Inference

December 18, 2023
Auteurs: Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang
cs.AI

Samenvatting

Speculatieve decodering verbetert de efficiëntie van grote taalmodelen (LLMs) door gebruik te maken van een conceptmodel om concepten te genereren die vervolgens door een groter doelmodel worden beoordeeld. Het genereren van concepten in speculatieve decodering omvat echter trage autoregressieve generatie en het produceren van tokens met verschillende belangrijkheid met dezelfde tijdsallocatie. Deze twee inefficiënties leiden tot suboptimale prestaties. Om dit probleem aan te pakken, introduceren we Cascade Speculative Drafting (CS. Drafting), een nieuwe aanpak die gebruikmaakt van twee soorten cascades. De Verticale Cascade elimineert autoregressieve generatie door neurale modellen. De Horizontale Cascade zorgt voor efficiënte tijdsallocatie bij het genereren van concepten, waarbij de optimaliteit wordt ondersteund door onze theoretische analyse. Door beide cascades te combineren, heeft ons CS. Drafting-algoritme in onze experimenten een extra snelheidswinst van tot 72 procent behaald ten opzichte van speculatieve decodering, terwijl dezelfde uitvoerdistributie behouden blijft.
English
Speculative decoding enhances the efficiency of large language models (LLMs) by leveraging a draft model to draft for a larger target model to review. However, drafting in speculative decoding involves slow autoregressive generation and generating tokens of different importance with the same time allocation. These two inefficiencies lead to its suboptimal performance. To address this issue, we introduce Cascade Speculative Drafting (CS. Drafting), a novel approach that employs two types of cascades. The Vertical Cascade eliminates autoregressive generation from neural models. The Horizontal Cascade constitutes efficient time allocation in drafting with its optimality supported by our theoretical analysis. Combining both cascades, our CS. Drafting algorithm has achieved up to 72 percent additional speedup over speculative decoding in our experiments while keeping the same output distribution.
PDF101February 11, 2026