EE-Tuning : Une Solution Économique et Évolutive pour l'Optimisation des Modèles de Langage à Sortie Précoce
EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models
February 1, 2024
papers.authors: Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
papers.abstract
Ce travail présente EE-Tuning, une solution légère et économique pour l'entraînement/le réglage de grands modèles de langage (LLM) à sortie précoce. Contrairement à l'approche courante de pré-entraînement sur l'ensemble des paramètres, EE-Tuning enrichit tout LLM standard pré-entraîné (et éventuellement affiné) avec des couches supplémentaires de sortie précoce, réglées de manière efficace en termes de paramètres, ce qui nécessite nettement moins de ressources computationnelles et de données d'entraînement. Notre implémentation de EE-Tuning atteint une efficacité d'entraînement exceptionnelle grâce à des optimisations de performance approfondies, ainsi qu'une scalabilité due à sa compatibilité totale avec le parallélisme 3D. Les résultats d'expériences systématiques valident l'efficacité de EE-Tuning, confirmant qu'une inférence efficace de LLM à sortie précoce peut être réalisée avec un budget d'entraînement limité. Dans l'espoir de rendre les LLM à sortie précoce accessibles à la communauté, nous publions le code source de notre implémentation de EE-Tuning à l'adresse https://github.com/pan-x-c/EE-LLM.
English
This work introduces EE-Tuning, a lightweight and economical solution to
training/tuning early-exit large language models (LLMs). In contrast to the
common approach of full-parameter pre-training, EE-Tuning augments any
pre-trained (and possibly fine-tuned) standard LLM with additional early-exit
layers that are tuned in a parameter-efficient manner, which requires
significantly less computational resources and training data. Our
implementation of EE-Tuning achieves outstanding training efficiency via
extensive performance optimizations, as well as scalability due to its full
compatibility with 3D parallelism. Results of systematic experiments validate
the efficacy of EE-Tuning, confirming that effective early-exit LLM inference
can be achieved with a limited training budget. In hope of making early-exit
LLMs accessible to the community, we release the source code of our
implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.