ChatPaper.aiChatPaper

MagicDec: Преодоление компромисса между задержкой и пропускной способностью для генерации длинного контекста с помощью спекулятивного декодирования.

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

August 20, 2024
Авторы: Jian Chen, Vashisth Tiwari, Ranajoy Sadhukhan, Zhuoming Chen, Jinyuan Shi, Ian En-Hsu Yen, Beidi Chen
cs.AI

Аннотация

Большие языковые модели (LLM) стали более распространенными в приложениях с длинным контекстом, таких как интерактивные чат-боты, анализ документов и рабочие процессы агентов, однако обслуживание запросов с длинным контекстом с низкой задержкой и высокой пропускной способностью представляет определенные трудности. Спекулятивное декодирование (SD) является широко используемой техникой для снижения задержки без ущерба производительности, но общепринятое мнение подразумевает, что его эффективность ограничена малыми размерами пакетов. В MagicDec мы показываем, что удивительным образом SD может обеспечить ускорение даже для режима вывода с высокой пропускной способностью для умеренных и длинных последовательностей. Более интересно то, что интеллектуальная стратегия чернового создания может обеспечить более высокую скорость при увеличении размера пакета на основе нашего строгого анализа. MagicDec сначала определяет сдвиги узких мест при увеличении размера пакета и длины последовательности, и использует эти знания для более эффективного применения спекулятивного декодирования для вывода с высокой пропускной способностью. Затем он использует черновые модели с разреженным кэшем KV для решения проблемы узкого места KV, которое масштабируется как с длиной последовательности, так и с размером пакета.
English
Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency without sacrificing performance but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy speculative decoding more effectively for high throughput inference. Then, it leverages draft models with sparse KV cache to address the KV bottleneck that scales with both sequence length and batch size.

Summary

AI-Generated Summary

PDF133November 17, 2024