Sorted LLaMA: Sfruttare il Potenziale degli Strati Intermedi dei Modelli Linguistici di Grande Dimensione per Inferenza Dinamica Utilizzando il Fine-Tuning Ordinato (SoFT)
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)
September 16, 2023
Autori: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh
cs.AI
Abstract
Il rapido progresso dei modelli linguistici di grandi dimensioni (LLM) ha rivoluzionato l'elaborazione del linguaggio naturale (NLP). Sebbene questi modelli eccellano nella comprensione e nella generazione di testo simile a quello umano, il loro ampio dispiegamento può risultare proibitivamente costoso. SortedNet è una recente tecnica di addestramento che abilita l'inferenza dinamica per le reti neurali profonde. Sfrutta la modularità della rete per creare sottomodelli con carichi computazionali variabili, ordinandoli in base alle caratteristiche di calcolo/accuratezza in modo annidato. Estendiamo SortedNet ai compiti generativi di NLP, rendendo i modelli linguistici di grandi dimensioni dinamici senza alcun preaddestramento e sostituendo semplicemente il Fine-Tuning Supervisionato standard (SFT) con il Sorted Fine-Tuning (SoFT) agli stessi costi. Il nostro approccio migliora l'efficienza del modello, eliminando la necessità di più modelli per vari scenari durante l'inferenza. Dimostriamo che, utilizzando questo approccio, siamo in grado di sbloccare il potenziale degli strati intermedi dei trasformatori nella generazione dell'output desiderato. I nostri sottomodelli rimangono componenti integrali del modello originale, minimizzando i requisiti di archiviazione e i costi di transizione tra diversi budget computazionali/latenza. Applicando questo approccio su LLaMa 2 13B per il tuning sul dataset Stanford Alpaca e confrontandolo con il tuning normale e l'uscita anticipata tramite il benchmark PandaLM, dimostriamo che il Sorted Fine-Tuning può fornire modelli due volte più veloci rispetto al modello originale, mantenendo o superando le prestazioni.
English
The rapid advancement of large language models (LLMs) has revolutionized
natural language processing (NLP). While these models excel at understanding
and generating human-like text, their widespread deployment can be
prohibitively expensive. SortedNet is a recent training technique for enabling
dynamic inference for deep neural networks. It leverages network modularity to
create sub-models with varying computational loads, sorting them based on
computation/accuracy characteristics in a nested manner. We extend SortedNet to
generative NLP tasks, making large language models dynamic without any
pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with
Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model
efficiency, eliminating the need for multiple models for various scenarios
during inference. We show that using this approach, we are able to unlock the
potential of intermediate layers of transformers in generating the target
output. Our sub-models remain integral components of the original model,
minimizing storage requirements and transition costs between different
computational/latency budgets. By applying this approach on LLaMa 2 13B for
tuning on the Stanford Alpaca dataset and comparing it to normal tuning and
early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver
models twice as fast as the original model while maintaining or exceeding
performance.