EE-Tuning: Экономичное, но масштабируемое решение для настройки крупных языковых моделей с ранним выходом
EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models
February 1, 2024
Авторы: Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Аннотация
В данной работе представлен EE-Tuning — легковесное и экономичное решение для обучения/настройки крупных языковых моделей (LLM) с ранним выходом. В отличие от традиционного подхода, предполагающего полное предварительное обучение всех параметров, EE-Tuning дополняет любую предварительно обученную (и, возможно, донастроенную) стандартную LLM дополнительными слоями раннего выхода, которые настраиваются с минимальными затратами параметров. Это требует значительно меньше вычислительных ресурсов и данных для обучения. Наша реализация EE-Tuning достигает высокой эффективности обучения благодаря оптимизации производительности, а также масштабируемости за счет полной совместимости с 3D-параллелизмом. Результаты систематических экспериментов подтверждают эффективность EE-Tuning, демонстрируя, что качественный вывод LLM с ранним выходом может быть достигнут при ограниченном бюджете на обучение. С целью сделать LLM с ранним выходом доступными для сообщества, мы публикуем исходный код нашей реализации EE-Tuning по адресу https://github.com/pan-x-c/EE-LLM.
English
This work introduces EE-Tuning, a lightweight and economical solution to
training/tuning early-exit large language models (LLMs). In contrast to the
common approach of full-parameter pre-training, EE-Tuning augments any
pre-trained (and possibly fine-tuned) standard LLM with additional early-exit
layers that are tuned in a parameter-efficient manner, which requires
significantly less computational resources and training data. Our
implementation of EE-Tuning achieves outstanding training efficiency via
extensive performance optimizations, as well as scalability due to its full
compatibility with 3D parallelism. Results of systematic experiments validate
the efficacy of EE-Tuning, confirming that effective early-exit LLM inference
can be achieved with a limited training budget. In hope of making early-exit
LLMs accessible to the community, we release the source code of our
implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.