ChatPaper.aiChatPaper

BiTA: Bidirektionale Optimierung für verlustfreie Beschleunigung in großen Sprachmodellen

BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models

January 23, 2024
Autoren: Feng Lin, Hanling Yi, Hongbin Li, Yifan Yang, Xiaotian Yu, Guangming Lu, Rong Xiao
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) verwenden häufig autoregressive Generierung während der Inferenz, was zu einer hohen Speicherbandbreitennachfrage und folglich zu einer verlängerten Latenz führt. Um diese Ineffizienz zu mindern, präsentieren wir Bi-directional Tuning for Lossless Acceleration (BiTA), eine innovative Methode zur Beschleunigung von LLMs durch optimierte semi-autoregressive Generierung und Entwurfsüberprüfung. Inspiriert durch das Konzept des Prompt Tunings, erweitern wir LLMs mit einem parameter-effizienten Design namens bi-direktionales Tuning für die Fähigkeit zur semi-autoregressiven Generierung. Durch den Einsatz effizienter baumbasierter Dekodierung führen die Modelle die Generierung von Entwurfskandidaten und deren Überprüfung parallel durch, wodurch Ausgaben gewährleistet werden, die unter Greedy-Sampling identisch zu ihren autoregressiven Gegenstücken sind. BiTA fungiert als leichtgewichtiges Plug-in-Modul, das nahtlos die Inferenzeffizienz bestehender LLMs steigert, ohne zusätzliche Hilfsmodelle zu benötigen oder signifikante zusätzliche Speicherkosten zu verursachen. Durch die Anwendung des vorgeschlagenen BiTA erreicht LLaMA-2-70B-Chat eine 2,7-fache Beschleunigung auf dem MT-Bench-Benchmark. Umfangreiche Experimente bestätigen, dass unsere Methode state-of-the-art Beschleunigungstechniken übertrifft.
English
Large language models (LLMs) commonly employ autoregressive generation during inference, leading to high memory bandwidth demand and consequently extended latency. To mitigate this inefficiency, we present Bi-directional Tuning for lossless Acceleration (BiTA), an innovative method expediting LLMs via streamlined semi-autoregressive generation and draft verification. Inspired by the concept of prompt tuning, we enhance LLMs with a parameter-efficient design called bi-directional tuning for the capability in semi-autoregressive generation. Employing efficient tree-based decoding, the models perform draft candidate generation and verification in parallel, ensuring outputs identical to their autoregressive counterparts under greedy sampling. BiTA serves as a lightweight plug-in module, seamlessly boosting the inference efficiency of existing LLMs without requiring additional assistance models or incurring significant extra memory costs. Applying the proposed BiTA, LLaMA-2-70B-Chat achieves a 2.7times speedup on the MT-Bench benchmark. Extensive experiments confirm our method surpasses state-of-the-art acceleration techniques.
PDF121December 15, 2024