EE-Tuning: Una Soluzione Economica ma Scalabile per l'Addestramento di Modelli Linguistici di Grande Dimensione con Uscita Anticipata
EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models
February 1, 2024
Autori: Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Abstract
Questo lavoro introduce EE-Tuning, una soluzione leggera ed economica per l'addestramento/ottimizzazione di grandi modelli linguistici (LLM) con uscita anticipata. A differenza dell'approccio comune del pre-addestramento completo dei parametri, EE-Tuning arricchisce qualsiasi LLM standard pre-addestrato (e possibilmente ottimizzato) con ulteriori strati di uscita anticipata che vengono ottimizzati in modo efficiente dal punto di vista dei parametri, richiedendo risorse computazionali e dati di addestramento significativamente inferiori. La nostra implementazione di EE-Tuning raggiunge un'eccellente efficienza di addestramento grazie a ottimizzazioni estensive delle prestazioni, nonché scalabilità grazie alla piena compatibilità con il parallelismo 3D. I risultati di esperimenti sistematici convalidano l'efficacia di EE-Tuning, confermando che è possibile ottenere un'inferenza efficace di LLM con uscita anticipata con un budget di addestramento limitato. Con l'obiettivo di rendere accessibili alla comunità gli LLM con uscita anticipata, rilasciamo il codice sorgente della nostra implementazione di EE-Tuning all'indirizzo https://github.com/pan-x-c/EE-LLM.
English
This work introduces EE-Tuning, a lightweight and economical solution to
training/tuning early-exit large language models (LLMs). In contrast to the
common approach of full-parameter pre-training, EE-Tuning augments any
pre-trained (and possibly fine-tuned) standard LLM with additional early-exit
layers that are tuned in a parameter-efficient manner, which requires
significantly less computational resources and training data. Our
implementation of EE-Tuning achieves outstanding training efficiency via
extensive performance optimizations, as well as scalability due to its full
compatibility with 3D parallelism. Results of systematic experiments validate
the efficacy of EE-Tuning, confirming that effective early-exit LLM inference
can be achieved with a limited training budget. In hope of making early-exit
LLMs accessible to the community, we release the source code of our
implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.