Sorted LLaMA: Das Potenzial der Zwischenschichten großer Sprachmodelle für dynamische Inferenz durch sortiertes Fine-Tuning (SoFT) freisetzen
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)
September 16, 2023
Autoren: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung großer Sprachmodelle (Large Language Models, LLMs) hat die natürliche Sprachverarbeitung (Natural Language Processing, NLP) revolutioniert. Obwohl diese Modelle hervorragend darin sind, menschenähnlichen Text zu verstehen und zu generieren, kann ihre breite Anwendung aufgrund der hohen Kosten problematisch sein. SortedNet ist eine neuartige Trainingsmethode, die dynamische Inferenz für tiefe neuronale Netze ermöglicht. Sie nutzt die Modularität von Netzwerken, um Teilmodelle mit unterschiedlichen Rechenlasten zu erstellen und diese basierend auf ihren Rechen-/Genauigkeitsmerkmalen in verschachtelter Weise zu sortieren. Wir erweitern SortedNet auf generative NLP-Aufgaben, wodurch große Sprachmodelle dynamisch werden, ohne dass ein erneutes Vortraining erforderlich ist und lediglich das standardmäßige Supervised Fine-Tuning (SFT) durch Sorted Fine-Tuning (SoFT) zu denselben Kosten ersetzt wird. Unser Ansatz steigert die Effizienz der Modelle und eliminiert die Notwendigkeit mehrerer Modelle für verschiedene Szenarien während der Inferenz. Wir zeigen, dass wir mit diesem Ansatz das Potenzial der Zwischenschichten von Transformern freisetzen können, um das Zieloutput zu generieren. Unsere Teilmodelle bleiben integrale Bestandteile des ursprünglichen Modells, wodurch Speicheranforderungen und Übergangskosten zwischen verschiedenen Rechen-/Latenzbudgets minimiert werden. Durch die Anwendung dieses Ansatzes auf LLaMa 2 13B für das Fine-Tuning auf dem Stanford Alpaca-Datensatz und den Vergleich mit normalem Tuning und Early Exit über den PandaLM-Benchmark zeigen wir, dass Sorted Fine-Tuning Modelle liefern kann, die doppelt so schnell sind wie das ursprüngliche Modell, während die Leistung erhalten bleibt oder sogar übertroffen wird.
English
The rapid advancement of large language models (LLMs) has revolutionized
natural language processing (NLP). While these models excel at understanding
and generating human-like text, their widespread deployment can be
prohibitively expensive. SortedNet is a recent training technique for enabling
dynamic inference for deep neural networks. It leverages network modularity to
create sub-models with varying computational loads, sorting them based on
computation/accuracy characteristics in a nested manner. We extend SortedNet to
generative NLP tasks, making large language models dynamic without any
pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with
Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model
efficiency, eliminating the need for multiple models for various scenarios
during inference. We show that using this approach, we are able to unlock the
potential of intermediate layers of transformers in generating the target
output. Our sub-models remain integral components of the original model,
minimizing storage requirements and transition costs between different
computational/latency budgets. By applying this approach on LLaMa 2 13B for
tuning on the Stanford Alpaca dataset and comparing it to normal tuning and
early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver
models twice as fast as the original model while maintaining or exceeding
performance.