Sorted LLaMA : Exploiter le potentiel des couches intermédiaires des grands modèles de langage pour l'inférence dynamique grâce au réglage fin trié (SoFT)
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)
September 16, 2023
Auteurs: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh
cs.AI
Résumé
L'avancée rapide des grands modèles de langage (LLMs) a révolutionné le traitement du langage naturel (NLP). Bien que ces modèles excellent dans la compréhension et la génération de texte semblable à celui produit par l'homme, leur déploiement à grande échelle peut s'avérer prohibitivement coûteux. SortedNet est une technique d'entraînement récente permettant l'inférence dynamique pour les réseaux de neurones profonds. Elle exploite la modularité du réseau pour créer des sous-modèles avec des charges de calcul variables, en les triant de manière imbriquée selon leurs caractéristiques calcul/précision. Nous étendons SortedNet aux tâches génératives de NLP, rendant les grands modèles de langage dynamiques sans aucun pré-entraînement et en remplaçant simplement le réglage fin supervisé standard (SFT) par le réglage fin trié (SoFT) à coûts équivalents. Notre approche améliore l'efficacité du modèle, éliminant le besoin de multiples modèles pour divers scénarios lors de l'inférence. Nous montrons qu'en utilisant cette approche, nous sommes capables de débloquer le potentiel des couches intermédiaires des transformateurs dans la génération de la sortie cible. Nos sous-modèles restent des composants intégraux du modèle original, minimisant les besoins de stockage et les coûts de transition entre différents budgets de calcul/latence. En appliquant cette approche à LLaMa 2 13B pour le réglage sur le jeu de données Stanford Alpaca et en la comparant au réglage normal et à la sortie précoce via le benchmark PandaLM, nous montrons que le réglage fin trié peut produire des modèles deux fois plus rapides que le modèle original tout en maintenant ou en dépassant les performances.
English
The rapid advancement of large language models (LLMs) has revolutionized
natural language processing (NLP). While these models excel at understanding
and generating human-like text, their widespread deployment can be
prohibitively expensive. SortedNet is a recent training technique for enabling
dynamic inference for deep neural networks. It leverages network modularity to
create sub-models with varying computational loads, sorting them based on
computation/accuracy characteristics in a nested manner. We extend SortedNet to
generative NLP tasks, making large language models dynamic without any
pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with
Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model
efficiency, eliminating the need for multiple models for various scenarios
during inference. We show that using this approach, we are able to unlock the
potential of intermediate layers of transformers in generating the target
output. Our sub-models remain integral components of the original model,
minimizing storage requirements and transition costs between different
computational/latency budgets. By applying this approach on LLaMa 2 13B for
tuning on the Stanford Alpaca dataset and comparing it to normal tuning and
early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver
models twice as fast as the original model while maintaining or exceeding
performance.