CLEX: Estrapolazione Continua della Lunghezza per Modelli Linguistici di Grande Dimensione
CLEX: Continuous Length Extrapolation for Large Language Models
October 25, 2023
Autori: Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
cs.AI
Abstract
I modelli linguistici su larga scala basati su Transformer (LLM) stanno aprendo nuove frontiere in molti compiti di elaborazione del linguaggio naturale. Tuttavia, le loro eccezionali capacità sono limitate dalla finestra contestuale predefinita del Transformer. I metodi di ridimensionamento degli embedding posizionali (PE), sebbene efficaci nell'estendere la finestra contestuale a una lunghezza specifica, presentano notevoli limitazioni nelle capacità di estrapolazione o sacrificano parte delle prestazioni all'interno della finestra contestuale. I metodi di estrapolazione della lunghezza, sebbene teoricamente in grado di estendere la finestra contestuale oltre la lunghezza della sequenza di addestramento, spesso ottengono risultati inferiori nelle applicazioni pratiche con contesti lunghi. Per affrontare queste sfide, proponiamo Continuous Length EXtrapolation (CLEX) per i LLM. Generalizziamo gli approcci di ridimensionamento dei PE per modellare la dinamica continua attraverso equazioni differenziali ordinarie rispetto al fattore di ridimensionamento della lunghezza, superando così i limiti dei metodi di ridimensionamento dei PE attuali progettati per lunghezze specifiche. Inoltre, estendendo la dinamica a lunghezze contestuali desiderate oltre la lunghezza della sequenza di addestramento, CLEX facilita l'estrapolazione della lunghezza con prestazioni impressionanti in compiti pratici. Dimostriamo che CLEX può essere integrato senza soluzione di continuità in LLM dotati di Rotary Position Embedding, come LLaMA e GPT-NeoX, con un impatto trascurabile sulla latenza di addestramento e inferenza. I risultati sperimentali rivelano che CLEX può estendere efficacemente la finestra contestuale a oltre 4x o quasi 8x la lunghezza di addestramento, senza deterioramento delle prestazioni. Inoltre, quando valutato sul benchmark pratico LongBench, il nostro modello addestrato su una lunghezza di 4k mostra prestazioni competitive rispetto ai modelli open-source all'avanguardia addestrati su lunghezze contestuali fino a 32k.
English
Transformer-based Large Language Models (LLMs) are pioneering advances in
many natural language processing tasks, however, their exceptional capabilities
are restricted within the preset context window of Transformer. Position
Embedding (PE) scaling methods, while effective in extending the context window
to a specific length, demonstrate either notable limitations in their
extrapolation abilities or sacrificing partial performance within the context
window. Length extrapolation methods, although theoretically capable of
extending the context window beyond the training sequence length, often
underperform in practical long-context applications. To address these
challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We
generalise the PE scaling approaches to model the continuous dynamics by
ordinary differential equations over the length scaling factor, thereby
overcoming the constraints of current PE scaling methods designed for specific
lengths. Moreover, by extending the dynamics to desired context lengths beyond
the training sequence length, CLEX facilitates the length extrapolation with
impressive performance in practical tasks. We demonstrate that CLEX can be
seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such
as LLaMA and GPT-NeoX, with negligible impact on training and inference
latency. Experimental results reveal that CLEX can effectively extend the
context window to over 4x or almost 8x training length, with no deterioration
in performance. Furthermore, when evaluated on the practical LongBench
benchmark, our model trained on a 4k length exhibits competitive performance
against state-of-the-art open-source models trained on context lengths up to
32k.