ChatPaper.aiChatPaper

Kaskadenartiges spekulatives Drafting für noch schnellere LLM-Inferenz

Cascade Speculative Drafting for Even Faster LLM Inference

December 18, 2023
Autoren: Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang
cs.AI

Zusammenfassung

Spekulative Dekodierung steigert die Effizienz von großen Sprachmodellen (LLMs), indem ein Entwurfsmodell genutzt wird, um Vorlagen für ein größeres Zielmodell zur Überprüfung zu erstellen. Allerdings beinhaltet das Entwerfen in der spekulativen Dekodierung eine langsame autoregressive Generierung und die Erzeugung von Tokens unterschiedlicher Bedeutung mit der gleichen Zeitzuweisung. Diese beiden Ineffizienzen führen zu einer suboptimalen Leistung. Um dieses Problem zu lösen, führen wir Cascade Speculative Drafting (CS. Drafting) ein, einen neuartigen Ansatz, der zwei Arten von Kaskaden verwendet. Die vertikale Kaskade eliminiert die autoregressive Generierung aus neuronalen Modellen. Die horizontale Kaskade ermöglicht eine effiziente Zeitzuweisung beim Entwerfen, deren Optimalität durch unsere theoretische Analyse gestützt wird. Durch die Kombination beider Kaskaden hat unser CS. Drafting-Algorithmus in unseren Experimenten eine zusätzliche Beschleunigung von bis zu 72 Prozent gegenüber der spekulativen Dekodierung erreicht, während die gleiche Ausgabeverteilung beibehalten wird.
English
Speculative decoding enhances the efficiency of large language models (LLMs) by leveraging a draft model to draft for a larger target model to review. However, drafting in speculative decoding involves slow autoregressive generation and generating tokens of different importance with the same time allocation. These two inefficiencies lead to its suboptimal performance. To address this issue, we introduce Cascade Speculative Drafting (CS. Drafting), a novel approach that employs two types of cascades. The Vertical Cascade eliminates autoregressive generation from neural models. The Horizontal Cascade constitutes efficient time allocation in drafting with its optimality supported by our theoretical analysis. Combining both cascades, our CS. Drafting algorithm has achieved up to 72 percent additional speedup over speculative decoding in our experiments while keeping the same output distribution.
PDF91December 15, 2024