Gesorteerde LLaMA: Het Ontgrendelen van het Potentieel van Intermediaire Lagen van Grote Taalmodellen voor Dynamische Inferentie met Gesorteerde Fine-Tuning (SoFT)
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)
September 16, 2023
Auteurs: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh
cs.AI
Samenvatting
De snelle vooruitgang van grote taalmmodellen (LLMs) heeft een revolutie teweeggebracht in natuurlijke taalverwerking (NLP). Hoewel deze modellen uitblinken in het begrijpen en genereren van mensachtige tekst, kan hun grootschalige inzet buitensporig kostbaar zijn. SortedNet is een recente trainingsmethode die dynamische inferentie mogelijk maakt voor diepe neurale netwerken. Het maakt gebruik van netwerkmodulariteit om submodellen te creëren met variërende rekenlast, die op een geneste manier worden gesorteerd op basis van rekenkracht/nauwkeurigheidskenmerken. We breiden SortedNet uit naar generatieve NLP-taken, waardoor grote taalmmodellen dynamisch worden zonder enige voorafgaande training en door alleen de standaard Supervised Fine-Tuning (SFT) te vervangen door Sorted Fine-Tuning (SoFT) tegen dezelfde kosten. Onze aanpak verbetert de efficiëntie van het model en elimineert de noodzaak voor meerdere modellen voor verschillende scenario's tijdens inferentie. We tonen aan dat we met deze aanpak het potentieel van tussenlagen van transformers kunnen benutten bij het genereren van het doeloutput. Onze submodellen blijven integrale componenten van het oorspronkelijke model, waardoor de opslagbehoeften en overgangskosten tussen verschillende rekenkracht/latentiebudgetten worden geminimaliseerd. Door deze aanpak toe te passen op LLaMa 2 13B voor afstemming op de Stanford Alpaca-dataset en deze te vergelijken met normale afstemming en vroegtijdig afsluiten via de PandaLM-benchmark, tonen we aan dat Sorted Fine-Tuning modellen kan opleveren die twee keer zo snel zijn als het oorspronkelijke model, terwijl de prestaties behouden blijven of zelfs worden overtroffen.
English
The rapid advancement of large language models (LLMs) has revolutionized
natural language processing (NLP). While these models excel at understanding
and generating human-like text, their widespread deployment can be
prohibitively expensive. SortedNet is a recent training technique for enabling
dynamic inference for deep neural networks. It leverages network modularity to
create sub-models with varying computational loads, sorting them based on
computation/accuracy characteristics in a nested manner. We extend SortedNet to
generative NLP tasks, making large language models dynamic without any
pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with
Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model
efficiency, eliminating the need for multiple models for various scenarios
during inference. We show that using this approach, we are able to unlock the
potential of intermediate layers of transformers in generating the target
output. Our sub-models remain integral components of the original model,
minimizing storage requirements and transition costs between different
computational/latency budgets. By applying this approach on LLaMa 2 13B for
tuning on the Stanford Alpaca dataset and comparing it to normal tuning and
early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver
models twice as fast as the original model while maintaining or exceeding
performance.