ChatPaper.aiChatPaper

EE-Tuning: Una solución económica y escalable para el ajuste de modelos de lenguaje grandes con salida temprana

EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

February 1, 2024
Autores: Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI

Resumen

Este trabajo presenta EE-Tuning, una solución ligera y económica para el entrenamiento/ajuste de modelos de lenguaje grandes (LLMs) con salida temprana. A diferencia del enfoque común de preentrenamiento de parámetros completos, EE-Tuning amplía cualquier LLM estándar preentrenado (y posiblemente ajustado) con capas adicionales de salida temprana que se ajustan de manera eficiente en parámetros, lo que requiere significativamente menos recursos computacionales y datos de entrenamiento. Nuestra implementación de EE-Tuning logra una eficiencia de entrenamiento sobresaliente mediante optimizaciones extensas de rendimiento, así como escalabilidad debido a su completa compatibilidad con el paralelismo 3D. Los resultados de experimentos sistemáticos validan la eficacia de EE-Tuning, confirmando que se puede lograr una inferencia efectiva de LLMs con salida temprana con un presupuesto de entrenamiento limitado. Con la esperanza de hacer accesibles los LLMs con salida temprana a la comunidad, publicamos el código fuente de nuestra implementación de EE-Tuning en https://github.com/pan-x-c/EE-LLM.
English
This work introduces EE-Tuning, a lightweight and economical solution to training/tuning early-exit large language models (LLMs). In contrast to the common approach of full-parameter pre-training, EE-Tuning augments any pre-trained (and possibly fine-tuned) standard LLM with additional early-exit layers that are tuned in a parameter-efficient manner, which requires significantly less computational resources and training data. Our implementation of EE-Tuning achieves outstanding training efficiency via extensive performance optimizations, as well as scalability due to its full compatibility with 3D parallelism. Results of systematic experiments validate the efficacy of EE-Tuning, confirming that effective early-exit LLM inference can be achieved with a limited training budget. In hope of making early-exit LLMs accessible to the community, we release the source code of our implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.
PDF41December 15, 2024