ChatPaper.aiChatPaper

EE-Tuning: Uma Solução Econômica e Escalável para o Ajuste de Modelos de Linguagem de Grande Porte com Saída Antecipada

EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

February 1, 2024
Autores: Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI

Resumo

Este trabalho apresenta o EE-Tuning, uma solução leve e econômica para o treinamento/ajuste de modelos de linguagem de grande escala (LLMs) com saída antecipada. Em contraste com a abordagem comum de pré-treinamento de parâmetros completos, o EE-Tuning aumenta qualquer LLM padrão pré-treinado (e possivelmente ajustado) com camadas adicionais de saída antecipada que são ajustadas de maneira eficiente em termos de parâmetros, o que requer significativamente menos recursos computacionais e dados de treinamento. Nossa implementação do EE-Tuning alcança uma eficiência de treinamento excepcional por meio de extensas otimizações de desempenho, bem como escalabilidade devido à sua completa compatibilidade com paralelismo 3D. Os resultados de experimentos sistemáticos validam a eficácia do EE-Tuning, confirmando que uma inferência eficaz de LLMs com saída antecipada pode ser alcançada com um orçamento limitado de treinamento. Na esperança de tornar os LLMs com saída antecipada acessíveis à comunidade, disponibilizamos o código-fonte de nossa implementação do EE-Tuning em https://github.com/pan-x-c/EE-LLM.
English
This work introduces EE-Tuning, a lightweight and economical solution to training/tuning early-exit large language models (LLMs). In contrast to the common approach of full-parameter pre-training, EE-Tuning augments any pre-trained (and possibly fine-tuned) standard LLM with additional early-exit layers that are tuned in a parameter-efficient manner, which requires significantly less computational resources and training data. Our implementation of EE-Tuning achieves outstanding training efficiency via extensive performance optimizations, as well as scalability due to its full compatibility with 3D parallelism. Results of systematic experiments validate the efficacy of EE-Tuning, confirming that effective early-exit LLM inference can be achieved with a limited training budget. In hope of making early-exit LLMs accessible to the community, we release the source code of our implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.
PDF41December 15, 2024