E^2-LLM : Extension efficace et extrême de la longueur des grands modèles de langage
E^2-LLM: Efficient and Extreme Length Extension of Large Language Models
January 13, 2024
Auteurs: Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng
cs.AI
Résumé
Typiquement, l'entraînement de modèles de langage de grande taille (LLM) avec des contextes longs est coûteux en termes de calcul, nécessitant des heures d'entraînement étendues et des ressources GPU importantes. Les méthodes existantes d'extension de contexte long nécessitent généralement des procédures d'entraînement supplémentaires pour supporter des fenêtres de contexte long correspondantes, où les données d'entraînement de contexte long (par exemple, 32k) sont requises, et des coûts élevés d'entraînement sur GPU sont assumés. Pour résoudre les problèmes mentionnés ci-dessus, nous proposons une méthode d'extension de longueur efficace et extrême pour les modèles de langage de grande taille, appelée E²-LLM, avec une seule procédure d'entraînement et des coûts de calcul considérablement réduits, ce qui élimine également la nécessité de collecter des données de contexte long. Concrètement, premièrement, les données d'entraînement de notre E²-LLM ne nécessitent qu'une longueur courte (par exemple, 4k), ce qui réduit considérablement les coûts de réglage. Deuxièmement, la procédure d'entraînement sur la fenêtre de contexte d'entraînement courte est effectuée une seule fois, et nous pouvons supporter différentes fenêtres de contexte d'évaluation lors de l'inférence. Troisièmement, dans E²-LLM, basé sur les embeddings de position RoPE, nous introduisons deux méthodes d'augmentation différentes sur les paramètres d'échelle et d'indice de position pour différents échantillons lors de l'entraînement. Cela vise à rendre le modèle plus robuste aux différentes différences relatives lors de l'interpolation directe de la longueur de contexte arbitraire à l'inférence. Les résultats expérimentaux complets sur plusieurs ensembles de données de référence démontrent l'efficacité de notre E²-LLM sur des tâches de contexte long difficiles.
English
Typically, training LLMs with long context sizes is computationally
expensive, requiring extensive training hours and GPU resources. Existing
long-context extension methods usually need additional training procedures to
support corresponding long-context windows, where the long-context training
data (e.g., 32k) is needed, and high GPU training costs are assumed. To address
the aforementioned issues, we propose an Efficient and Extreme length extension
method for Large Language Models, called E 2 -LLM, with only one training
procedure and dramatically reduced computation cost, which also removes the
need to collect long-context data. Concretely, first, the training data of our
E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost
greatly. Second, the training procedure on the short training context window is
performed only once time, and we can support different evaluation context
windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings,
we introduce two different augmentation methods on the scale and position index
parameters for different samples in training. It aims to make the model more
robust to the different relative differences when directly interpolating the
arbitrary context length at inference. Comprehensive experimental results on
multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on
challenging long-context tasks.