CLEX : Extrapolation Continue de Longueur pour les Modèles de Langage à Grande Échelle
CLEX: Continuous Length Extrapolation for Large Language Models
October 25, 2023
Auteurs: Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer représentent des avancées pionnières dans de nombreuses tâches de traitement du langage naturel. Cependant, leurs capacités exceptionnelles sont limitées par la fenêtre de contexte prédéfinie du Transformer. Les méthodes de mise à l'échelle des Position Embeddings (PE), bien qu'efficaces pour étendre la fenêtre de contexte à une longueur spécifique, présentent soit des limitations notables dans leurs capacités d'extrapolation, soit un sacrifice partiel des performances au sein de la fenêtre de contexte. Les méthodes d'extrapolation de longueur, bien que théoriquement capables d'étendre la fenêtre de contexte au-delà de la longueur des séquences d'entraînement, sous-performent souvent dans les applications pratiques à contexte long. Pour relever ces défis, nous proposons l'Extrapolation Continue de Longueur (CLEX) pour les LLMs. Nous généralisons les approches de mise à l'échelle des PE pour modéliser la dynamique continue à l'aide d'équations différentielles ordinaires sur le facteur de mise à l'échelle de longueur, surmontant ainsi les contraintes des méthodes actuelles de mise à l'échelle des PE conçues pour des longueurs spécifiques. De plus, en étendant la dynamique à des longueurs de contexte souhaitées au-delà de la longueur des séquences d'entraînement, CLEX facilite l'extrapolation de longueur avec des performances impressionnantes dans les tâches pratiques. Nous démontrons que CLEX peut être intégré de manière transparente dans les LLMs équipés de Rotary Position Embedding, tels que LLaMA et GPT-NeoX, avec un impact négligeable sur la latence d'entraînement et d'inférence. Les résultats expérimentaux révèlent que CLEX peut étendre efficacement la fenêtre de contexte à plus de 4 fois ou presque 8 fois la longueur d'entraînement, sans détérioration des performances. En outre, lorsqu'il est évalué sur le benchmark pratique LongBench, notre modèle entraîné sur une longueur de 4k présente des performances compétitives par rapport aux modèles open-source de pointe entraînés sur des longueurs de contexte allant jusqu'à 32k.
English
Transformer-based Large Language Models (LLMs) are pioneering advances in
many natural language processing tasks, however, their exceptional capabilities
are restricted within the preset context window of Transformer. Position
Embedding (PE) scaling methods, while effective in extending the context window
to a specific length, demonstrate either notable limitations in their
extrapolation abilities or sacrificing partial performance within the context
window. Length extrapolation methods, although theoretically capable of
extending the context window beyond the training sequence length, often
underperform in practical long-context applications. To address these
challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We
generalise the PE scaling approaches to model the continuous dynamics by
ordinary differential equations over the length scaling factor, thereby
overcoming the constraints of current PE scaling methods designed for specific
lengths. Moreover, by extending the dynamics to desired context lengths beyond
the training sequence length, CLEX facilitates the length extrapolation with
impressive performance in practical tasks. We demonstrate that CLEX can be
seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such
as LLaMA and GPT-NeoX, with negligible impact on training and inference
latency. Experimental results reveal that CLEX can effectively extend the
context window to over 4x or almost 8x training length, with no deterioration
in performance. Furthermore, when evaluated on the practical LongBench
benchmark, our model trained on a 4k length exhibits competitive performance
against state-of-the-art open-source models trained on context lengths up to
32k.