ChatPaper.aiChatPaper

EE-Tuning: Una Soluzione Economica ma Scalabile per l'Addestramento di Modelli Linguistici di Grande Dimensione con Uscita Anticipata

EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

February 1, 2024
Autori: Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI

Abstract

Questo lavoro introduce EE-Tuning, una soluzione leggera ed economica per l'addestramento/ottimizzazione di grandi modelli linguistici (LLM) con uscita anticipata. A differenza dell'approccio comune del pre-addestramento completo dei parametri, EE-Tuning arricchisce qualsiasi LLM standard pre-addestrato (e possibilmente ottimizzato) con ulteriori strati di uscita anticipata che vengono ottimizzati in modo efficiente dal punto di vista dei parametri, richiedendo risorse computazionali e dati di addestramento significativamente inferiori. La nostra implementazione di EE-Tuning raggiunge un'eccellente efficienza di addestramento grazie a ottimizzazioni estensive delle prestazioni, nonché scalabilità grazie alla piena compatibilità con il parallelismo 3D. I risultati di esperimenti sistematici convalidano l'efficacia di EE-Tuning, confermando che è possibile ottenere un'inferenza efficace di LLM con uscita anticipata con un budget di addestramento limitato. Con l'obiettivo di rendere accessibili alla comunità gli LLM con uscita anticipata, rilasciamo il codice sorgente della nostra implementazione di EE-Tuning all'indirizzo https://github.com/pan-x-c/EE-LLM.
English
This work introduces EE-Tuning, a lightweight and economical solution to training/tuning early-exit large language models (LLMs). In contrast to the common approach of full-parameter pre-training, EE-Tuning augments any pre-trained (and possibly fine-tuned) standard LLM with additional early-exit layers that are tuned in a parameter-efficient manner, which requires significantly less computational resources and training data. Our implementation of EE-Tuning achieves outstanding training efficiency via extensive performance optimizations, as well as scalability due to its full compatibility with 3D parallelism. Results of systematic experiments validate the efficacy of EE-Tuning, confirming that effective early-exit LLM inference can be achieved with a limited training budget. In hope of making early-exit LLMs accessible to the community, we release the source code of our implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.
PDF41December 15, 2024