EE-LLM: Addestramento su larga scala e inferenza di modelli linguistici di grandi dimensioni con uscita anticipata mediante parallelismo 3D

Abstract

Presentiamo EE-LLM, un framework per l'addestramento e l'inferenza su larga scala di modelli linguistici di grandi dimensioni (LLM) con uscita anticipata (early-exit). Mentre lavori recenti hanno mostrato prove preliminari dell'efficacia dell'uscita anticipata nell'accelerare l'inferenza degli LLM, EE-LLM compie un passo fondamentale verso la scalabilità degli LLM con uscita anticipata, supportandone l'addestramento e l'inferenza con un massiccio parallelismo 3D. Basato su Megatron-LM, EE-LLM implementa una varietà di innovazioni algoritmiche e ottimizzazioni delle prestazioni specifiche per l'uscita anticipata, tra cui un metodo leggero che facilita la retropropagazione per l'obiettivo di addestramento con uscita anticipata in presenza di parallelismo pipeline, tecniche per sfruttare le risorse inattive nel programma pipeline originale per il calcolo relativo ai livelli di uscita anticipata, e due approcci per l'inferenza con uscita anticipata compatibili con la memorizzazione della cache KV per la generazione autoregressiva. Il nostro studio analitico ed empirico dimostra che EE-LLM raggiunge un'elevata efficienza nell'addestramento con un overhead computazionale trascurabile rispetto all'addestramento standard degli LLM, oltre a un eccezionale aumento della velocità di inferenza senza compromettere la qualità dell'output. Per favorire ulteriori ricerche e l'adozione, rilasciamo EE-LLM all'indirizzo https://github.com/pan-x-c/EE-LLM.

English

We present EE-LLM, a framework for large-scale training and inference of early-exit large language models (LLMs). While recent works have shown preliminary evidence for the efficacy of early exiting in accelerating LLM inference, EE-LLM makes a foundational step towards scaling up early-exit LLMs by supporting their training and inference with massive 3D parallelism. Built upon Megatron-LM, EE-LLM implements a variety of algorithmic innovations and performance optimizations tailored to early exiting, including a lightweight method that facilitates backpropagation for the early-exit training objective with pipeline parallelism, techniques of leveraging idle resources in the original pipeline schedule for computation related to early-exit layers, and two approaches of early-exit inference that are compatible with KV caching for autoregressive generation. Our analytical and empirical study shows that EE-LLM achieves great training efficiency with negligible computational overhead compared to standard LLM training, as well as outstanding inference speedup without compromising output quality. To facilitate further research and adoption, we release EE-LLM at https://github.com/pan-x-c/EE-LLM.

EE-LLM: Addestramento su larga scala e inferenza di modelli linguistici di grandi dimensioni con uscita anticipata mediante parallelismo 3D

EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism

Abstract

Support