EE-Tuning: Eine wirtschaftliche und skalierbare Lösung für das Tuning von Early-Exit Large Language Models
EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models
February 1, 2024
Autoren: Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Zusammenfassung
Diese Arbeit stellt EE-Tuning vor, eine leichte und kosteneffiziente Lösung für das Training/Feintuning von Large Language Models (LLMs) mit Early-Exit-Mechanismus. Im Gegensatz zum gängigen Ansatz des Vollparameter-Pre-Trainings erweitert EE-Tuning jedes vortrainierte (und möglicherweise feinabgestimmte) Standard-LLM durch zusätzliche Early-Exit-Schichten, die auf parameter-effiziente Weise angepasst werden. Dies erfordert deutlich weniger Rechenressourcen und Trainingsdaten. Unsere Implementierung von EE-Tuning erreicht eine herausragende Trainingseffizienz durch umfangreiche Leistungsoptimierungen sowie Skalierbarkeit aufgrund der vollständigen Kompatibilität mit 3D-Parallelität. Die Ergebnisse systematischer Experimente bestätigen die Wirksamkeit von EE-Tuning und zeigen, dass eine effektive Inferenz von Early-Exit-LLMs mit begrenztem Trainingsbudget erreicht werden kann. In der Hoffnung, Early-Exit-LLMs der Community zugänglich zu machen, veröffentlichen wir den Quellcode unserer EE-Tuning-Implementierung unter https://github.com/pan-x-c/EE-LLM.
English
This work introduces EE-Tuning, a lightweight and economical solution to
training/tuning early-exit large language models (LLMs). In contrast to the
common approach of full-parameter pre-training, EE-Tuning augments any
pre-trained (and possibly fine-tuned) standard LLM with additional early-exit
layers that are tuned in a parameter-efficient manner, which requires
significantly less computational resources and training data. Our
implementation of EE-Tuning achieves outstanding training efficiency via
extensive performance optimizations, as well as scalability due to its full
compatibility with 3D parallelism. Results of systematic experiments validate
the efficacy of EE-Tuning, confirming that effective early-exit LLM inference
can be achieved with a limited training budget. In hope of making early-exit
LLMs accessible to the community, we release the source code of our
implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.