ChatPaper.aiChatPaper

EE-Tuning : Une Solution Économique et Évolutive pour l'Optimisation des Modèles de Langage à Sortie Précoce

EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

February 1, 2024
papers.authors: Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI

papers.abstract

Ce travail présente EE-Tuning, une solution légère et économique pour l'entraînement/le réglage de grands modèles de langage (LLM) à sortie précoce. Contrairement à l'approche courante de pré-entraînement sur l'ensemble des paramètres, EE-Tuning enrichit tout LLM standard pré-entraîné (et éventuellement affiné) avec des couches supplémentaires de sortie précoce, réglées de manière efficace en termes de paramètres, ce qui nécessite nettement moins de ressources computationnelles et de données d'entraînement. Notre implémentation de EE-Tuning atteint une efficacité d'entraînement exceptionnelle grâce à des optimisations de performance approfondies, ainsi qu'une scalabilité due à sa compatibilité totale avec le parallélisme 3D. Les résultats d'expériences systématiques valident l'efficacité de EE-Tuning, confirmant qu'une inférence efficace de LLM à sortie précoce peut être réalisée avec un budget d'entraînement limité. Dans l'espoir de rendre les LLM à sortie précoce accessibles à la communauté, nous publions le code source de notre implémentation de EE-Tuning à l'adresse https://github.com/pan-x-c/EE-LLM.
English
This work introduces EE-Tuning, a lightweight and economical solution to training/tuning early-exit large language models (LLMs). In contrast to the common approach of full-parameter pre-training, EE-Tuning augments any pre-trained (and possibly fine-tuned) standard LLM with additional early-exit layers that are tuned in a parameter-efficient manner, which requires significantly less computational resources and training data. Our implementation of EE-Tuning achieves outstanding training efficiency via extensive performance optimizations, as well as scalability due to its full compatibility with 3D parallelism. Results of systematic experiments validate the efficacy of EE-Tuning, confirming that effective early-exit LLM inference can be achieved with a limited training budget. In hope of making early-exit LLMs accessible to the community, we release the source code of our implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.
PDF41December 15, 2024