E^2-LLM : Extension efficace et extrême de la longueur des grands modèles de langage

papers.abstract

Typiquement, l'entraînement de modèles de langage de grande taille (LLM) avec des contextes longs est coûteux en termes de calcul, nécessitant des heures d'entraînement étendues et des ressources GPU importantes. Les méthodes existantes d'extension de contexte long nécessitent généralement des procédures d'entraînement supplémentaires pour supporter des fenêtres de contexte long correspondantes, où les données d'entraînement de contexte long (par exemple, 32k) sont requises, et des coûts élevés d'entraînement sur GPU sont assumés. Pour résoudre les problèmes mentionnés ci-dessus, nous proposons une méthode d'extension de longueur efficace et extrême pour les modèles de langage de grande taille, appelée E²-LLM, avec une seule procédure d'entraînement et des coûts de calcul considérablement réduits, ce qui élimine également la nécessité de collecter des données de contexte long. Concrètement, premièrement, les données d'entraînement de notre E²-LLM ne nécessitent qu'une longueur courte (par exemple, 4k), ce qui réduit considérablement les coûts de réglage. Deuxièmement, la procédure d'entraînement sur la fenêtre de contexte d'entraînement courte est effectuée une seule fois, et nous pouvons supporter différentes fenêtres de contexte d'évaluation lors de l'inférence. Troisièmement, dans E²-LLM, basé sur les embeddings de position RoPE, nous introduisons deux méthodes d'augmentation différentes sur les paramètres d'échelle et d'indice de position pour différents échantillons lors de l'entraînement. Cela vise à rendre le modèle plus robuste aux différentes différences relatives lors de l'interpolation directe de la longueur de contexte arbitraire à l'inférence. Les résultats expérimentaux complets sur plusieurs ensembles de données de référence démontrent l'efficacité de notre E²-LLM sur des tâches de contexte long difficiles.

English

Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. Existing long-context extension methods usually need additional training procedures to support corresponding long-context windows, where the long-context training data (e.g., 32k) is needed, and high GPU training costs are assumed. To address the aforementioned issues, we propose an Efficient and Extreme length extension method for Large Language Models, called E 2 -LLM, with only one training procedure and dramatically reduced computation cost, which also removes the need to collect long-context data. Concretely, first, the training data of our E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost greatly. Second, the training procedure on the short training context window is performed only once time, and we can support different evaluation context windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings, we introduce two different augmentation methods on the scale and position index parameters for different samples in training. It aims to make the model more robust to the different relative differences when directly interpolating the arbitrary context length at inference. Comprehensive experimental results on multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on challenging long-context tasks.

E^2-LLM : Extension efficace et extrême de la longueur des grands modèles de langage

E^2-LLM: Efficient and Extreme Length Extension of Large Language Models

papers.abstract

Support