ChatPaper.aiChatPaper

BiTA: Двунаправленная настройка для безубыточного ускорения в крупных языковых моделях

BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models

January 23, 2024
Авторы: Feng Lin, Hanling Yi, Hongbin Li, Yifan Yang, Xiaotian Yu, Guangming Lu, Rong Xiao
cs.AI

Аннотация

Крупные языковые модели (LLM) обычно используют авторегрессивную генерацию во время вывода, что приводит к высоким требованиям к пропускной способности памяти и, как следствие, к увеличению задержек. Для устранения этой неэффективности мы представляем метод Bi-directional Tuning for lossless Acceleration (BiTA), инновационный подход, ускоряющий LLM за счет оптимизированной полуавторегрессивной генерации и проверки черновых вариантов. Вдохновленные концепцией настройки промптов, мы улучшаем LLM с помощью параметрически эффективного подхода, называемого двунаправленной настройкой, для обеспечения возможности полуавторегрессивной генерации. Используя эффективное декодирование на основе деревьев, модели выполняют генерацию черновых кандидатов и их проверку параллельно, гарантируя идентичность выходных данных их авторегрессивным аналогам при жадной выборке. BiTA служит легковесным подключаемым модулем, плавно повышая эффективность вывода существующих LLM без необходимости использования дополнительных вспомогательных моделей или значительных дополнительных затрат памяти. Применение предложенного метода BiTA позволяет модели LLaMA-2-70B-Chat достичь ускорения в 2,7 раза на бенчмарке MT-Bench. Многочисленные эксперименты подтверждают, что наш метод превосходит современные методы ускорения.
English
Large language models (LLMs) commonly employ autoregressive generation during inference, leading to high memory bandwidth demand and consequently extended latency. To mitigate this inefficiency, we present Bi-directional Tuning for lossless Acceleration (BiTA), an innovative method expediting LLMs via streamlined semi-autoregressive generation and draft verification. Inspired by the concept of prompt tuning, we enhance LLMs with a parameter-efficient design called bi-directional tuning for the capability in semi-autoregressive generation. Employing efficient tree-based decoding, the models perform draft candidate generation and verification in parallel, ensuring outputs identical to their autoregressive counterparts under greedy sampling. BiTA serves as a lightweight plug-in module, seamlessly boosting the inference efficiency of existing LLMs without requiring additional assistance models or incurring significant extra memory costs. Applying the proposed BiTA, LLaMA-2-70B-Chat achieves a 2.7times speedup on the MT-Bench benchmark. Extensive experiments confirm our method surpasses state-of-the-art acceleration techniques.
PDF121December 15, 2024