BiTA : Réglage bidirectionnel pour une accélération sans perte dans les grands modèles de langage
BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models
January 23, 2024
Auteurs: Feng Lin, Hanling Yi, Hongbin Li, Yifan Yang, Xiaotian Yu, Guangming Lu, Rong Xiao
cs.AI
Résumé
Les grands modèles de langage (LLMs) utilisent couramment la génération autorégressive lors de l'inférence, ce qui entraîne une forte demande en bande passante mémoire et, par conséquent, une latence prolongée. Pour atténuer cette inefficacité, nous présentons Bi-directional Tuning for lossless Acceleration (BiTA), une méthode innovante qui accélère les LLMs via une génération semi-autorégressive simplifiée et une vérification de brouillon. Inspirés par le concept de prompt tuning, nous améliorons les LLMs avec une conception paramétriquement efficace appelée bi-directional tuning pour leur capacité à générer de manière semi-autorégressive. En utilisant un décodage basé sur des arbres efficace, les modèles effectuent la génération de candidats brouillons et leur vérification en parallèle, garantissant des résultats identiques à leurs homologues autorégressifs sous échantillonnage glouton. BiTA sert de module d'extension léger, augmentant de manière transparente l'efficacité de l'inférence des LLMs existants sans nécessiter de modèles d'assistance supplémentaires ni engendrer de coûts mémoire significatifs. En appliquant la méthode BiTA proposée, LLaMA-2-70B-Chat atteint une accélération de 2,7 fois sur le benchmark MT-Bench. Des expériences approfondies confirment que notre méthode surpasse les techniques d'accélération de pointe.
English
Large language models (LLMs) commonly employ autoregressive generation during
inference, leading to high memory bandwidth demand and consequently extended
latency. To mitigate this inefficiency, we present Bi-directional Tuning for
lossless Acceleration (BiTA), an innovative method expediting LLMs via
streamlined semi-autoregressive generation and draft verification. Inspired by
the concept of prompt tuning, we enhance LLMs with a parameter-efficient design
called bi-directional tuning for the capability in semi-autoregressive
generation. Employing efficient tree-based decoding, the models perform draft
candidate generation and verification in parallel, ensuring outputs identical
to their autoregressive counterparts under greedy sampling. BiTA serves as a
lightweight plug-in module, seamlessly boosting the inference efficiency of
existing LLMs without requiring additional assistance models or incurring
significant extra memory costs. Applying the proposed BiTA, LLaMA-2-70B-Chat
achieves a 2.7times speedup on the MT-Bench benchmark. Extensive experiments
confirm our method surpasses state-of-the-art acceleration techniques.