BiTA: Ottimizzazione Bidirezionale per l'Accelerazione Senza Perdite nei Modelli Linguistici di Grandi Dimensioni
BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models
January 23, 2024
Autori: Feng Lin, Hanling Yi, Hongbin Li, Yifan Yang, Xiaotian Yu, Guangming Lu, Rong Xiao
cs.AI
Abstract
I grandi modelli linguistici (LLM) comunemente impiegano la generazione autoregressiva durante l'inferenza, portando a un'elevata richiesta di larghezza di banda della memoria e, di conseguenza, a una latenza prolungata. Per mitigare questa inefficienza, presentiamo Bi-directional Tuning for Lossless Acceleration (BiTA), un metodo innovativo che accelera gli LLM attraverso una generazione semi-autoregressiva semplificata e la verifica delle bozze. Ispirati dal concetto di prompt tuning, potenziamo gli LLM con un design efficiente in termini di parametri chiamato bi-directional tuning per la capacità di generazione semi-autoregressiva. Utilizzando un decoding basato su alberi efficiente, i modelli eseguono la generazione e la verifica delle bozze candidate in parallelo, garantendo output identici alle loro controparti autoregressive sotto campionamento greedy. BiTA funziona come un modulo plug-in leggero, aumentando senza soluzione di continuità l'efficienza dell'inferenza degli LLM esistenti senza richiedere modelli di assistenza aggiuntivi o comportare costi di memoria significativi. Applicando il BiTA proposto, LLaMA-2-70B-Chat raggiunge un'accelerazione di 2,7 volte sul benchmark MT-Bench. Esperimenti estensivi confermano che il nostro metodo supera le tecniche di accelerazione all'avanguardia.
English
Large language models (LLMs) commonly employ autoregressive generation during
inference, leading to high memory bandwidth demand and consequently extended
latency. To mitigate this inefficiency, we present Bi-directional Tuning for
lossless Acceleration (BiTA), an innovative method expediting LLMs via
streamlined semi-autoregressive generation and draft verification. Inspired by
the concept of prompt tuning, we enhance LLMs with a parameter-efficient design
called bi-directional tuning for the capability in semi-autoregressive
generation. Employing efficient tree-based decoding, the models perform draft
candidate generation and verification in parallel, ensuring outputs identical
to their autoregressive counterparts under greedy sampling. BiTA serves as a
lightweight plug-in module, seamlessly boosting the inference efficiency of
existing LLMs without requiring additional assistance models or incurring
significant extra memory costs. Applying the proposed BiTA, LLaMA-2-70B-Chat
achieves a 2.7times speedup on the MT-Bench benchmark. Extensive experiments
confirm our method surpasses state-of-the-art acceleration techniques.