ChatPaper.aiChatPaper

Вывод на основе черновиков для приближенного вывода в больших языковых моделях

Draft-based Approximate Inference for LLMs

June 10, 2025
Авторы: Kevin Galim, Ethan Ewer, Wonjun Kang, Minjae Lee, Hyung Il Koo, Kangwook Lee
cs.AI

Аннотация

Оптимизация вывода для крупномасштабных языковых моделей (LLM) с длинным контекстом становится все более важной задачей из-за квадратичной вычислительной сложности и линейной сложности по памяти, характерных для архитектуры Transformer. Существующие методы аппроксимации, такие как отбрасывание кэша ключей-значений (KV), разреженное внимание и сжатие промптов, обычно основываются на приблизительных прогнозах важности токенов или пар KV. Мы предлагаем новый фреймворк для аппроксимативного вывода LLM, который использует небольшие черновые модели для более точного прогнозирования важности токенов и пар KV. В частности, мы представляем две реализации нашего фреймворка: (i) SpecKV, который использует черновой вывод для точной оценки важности каждой пары KV с целью более эффективного отбрасывания кэша, и (ii) SpecPC, который использует активации внимания черновой модели для идентификации и удаления неважных токенов промпта. Насколько нам известно, это первая работа, в которой черновые модели используются для ускорения аппроксимативного вывода LLM, расширяя их применение за рамки традиционного безошибочного спекулятивного декодирования. Мы обосновываем наши методы теоретическим и эмпирическим анализом и демонстрируем сильную корреляцию между паттернами внимания черновых и целевых моделей. Экстенсивные эксперименты на бенчмарках с длинным контекстом показывают, что наши методы стабильно достигают более высокой точности по сравнению с существующими базовыми подходами, сохраняя при этом аналогичные улучшения в использовании памяти, задержке и пропускной способности. Наш код доступен по адресу https://github.com/furiosa-ai/draft-based-approx-llm.
English
Optimizing inference for long-context Large Language Models (LLMs) is increasingly important due to the quadratic compute and linear memory complexity of Transformers. Existing approximation methods, such as key-value (KV) cache dropping, sparse attention, and prompt compression, typically rely on rough predictions of token or KV pair importance. We propose a novel framework for approximate LLM inference that leverages small draft models to more accurately predict the importance of tokens and KV pairs. Specifically, we introduce two instantiations of our proposed framework: (i) SpecKV, which leverages a draft output to accurately assess the importance of each KV pair for more effective KV cache dropping, and (ii) SpecPC, which uses the draft model's attention activations to identify and discard unimportant prompt tokens. To the best of our knowledge, this is the first work to use draft models for approximate LLM inference acceleration, extending their utility beyond traditional lossless speculative decoding. We motivate our methods with theoretical and empirical analyses, and show a strong correlation between the attention patterns of draft and target models. Extensive experiments on long-context benchmarks show that our methods consistently achieve higher accuracy than existing baselines, while preserving the same improvements in memory usage, latency, and throughput. Our code is available at https://github.com/furiosa-ai/draft-based-approx-llm.
PDF32June 13, 2025