ChatPaper.aiChatPaper

MagicDec: Überwindung des Latenz-Durchsatz-Dilemmas für die Generierung langer Kontexte mit spekulativer Decodierung.

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

August 20, 2024
Autoren: Jian Chen, Vashisth Tiwari, Ranajoy Sadhukhan, Zhuoming Chen, Jinyuan Shi, Ian En-Hsu Yen, Beidi Chen
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) sind in langen Kontextanwendungen wie interaktiven Chatbots, Dokumentenanalyse und Agenten-Workflows immer verbreiteter geworden, aber es ist eine Herausforderung, langen Kontextanfragen mit geringer Latenz und hoher Durchsatzrate gerecht zu werden. Spekulatives Decodieren (SD) ist eine weit verbreitete Technik, um die Latenz zu reduzieren, ohne die Leistung zu beeinträchtigen, aber die herkömmliche Weisheit legt nahe, dass seine Wirksamkeit auf kleine Batch-Größen begrenzt ist. In MagicDec zeigen wir, dass SD überraschenderweise auch für ein hohes Durchsatzinferenzregime für mittlere bis lange Sequenzen eine Beschleunigung erreichen kann. Noch interessanter ist, dass eine intelligente Entwurfsstrategie mit zunehmender Batch-Größe basierend auf unserer gründlichen Analyse eine bessere Beschleunigung erzielen kann. MagicDec identifiziert zunächst die Engpässe bei zunehmender Batch-Größe und Sequenzlänge und nutzt diese Erkenntnisse, um spekulatives Decodieren effektiver für Inferenz mit hoher Durchsatzrate einzusetzen. Anschließend nutzt es Entwurfsmodelle mit spärlichem KV-Cache, um den KV-Engpass zu bewältigen, der sowohl mit der Sequenzlänge als auch der Batch-Größe skaliert.
English
Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency without sacrificing performance but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy speculative decoding more effectively for high throughput inference. Then, it leverages draft models with sparse KV cache to address the KV bottleneck that scales with both sequence length and batch size.

Summary

AI-Generated Summary

PDF133November 17, 2024