RecetteLongue: Recette pour une Généralisation Efficace des Longs Contextes dans les Grands Modèles de Langage

Résumé

Les grands modèles de langage (LLM) sont confrontés à des défis importants pour traiter les tâches à long contexte en raison de leur taille de fenêtre contextuelle effective limitée pendant la pré-entraînement, ce qui restreint leur capacité à généraliser sur des séquences étendues. En attendant, l'extension de la fenêtre contextuelle dans les LLM à travers le post-entraînement est très gourmande en ressources. Pour remédier à cela, nous introduisons **LongRecipe**, une stratégie d'entraînement efficace pour étendre la fenêtre contextuelle des LLM, comprenant une analyse d'impact sur les jetons, une transformation des index de position et des stratégies d'optimisation de l'entraînement. Il simule des entrées de longues séquences tout en maintenant l'efficacité de l'entraînement et améliore significativement la compréhension du modèle des dépendances à longue portée. Des expériences sur trois types de LLM montrent que LongRecipe peut utiliser de longues séquences tout en ne nécessitant que 30% de la taille de la fenêtre contextuelle cible, et réduit les ressources de calcul nécessaires à l'entraînement de plus de 85% par rapport à un entraînement sur la séquence complète. De plus, LongRecipe préserve également les capacités originales des LLM dans les tâches générales. En fin de compte, *nous pouvons étendre la fenêtre contextuelle effective des LLM open-source de 8k à 128k, atteignant des performances proches de GPT-4 avec seulement un jour d'entraînement dédié en utilisant un seul GPU avec 80G de mémoire.* Notre code est disponible sur le [lien](https://github.com/zhiyuanhubj/LongRecipe).

English

Large language models (LLMs) face significant challenges in handling long-context tasks because of their limited effective context window size during pretraining, which restricts their ability to generalize over extended sequences. Meanwhile, extending the context window in LLMs through post-pretraining is highly resource-intensive. To address this, we introduce **LongRecipe**, an efficient training strategy for extending the context window of LLMs, including impactful token analysis, position index transformation, and training optimization strategies. It simulates long-sequence inputs while maintaining training efficiency and significantly improves the model's understanding of long-range dependencies. Experiments on three types of LLMs show that LongRecipe can utilize long sequences while requiring only 30% of the target context window size, and reduces computational training resource over 85% compared to full sequence training. Furthermore, LongRecipe also preserves the original LLM's capabilities in general tasks. Ultimately, *we can extend the effective context window of open-source LLMs from 8k to 128k, achieving performance close to GPT-4 with just one day of dedicated training using a single GPU with 80G memory.* Our code is released at the [link](https://github.com/zhiyuanhubj/LongRecipe).

RecetteLongue: Recette pour une Généralisation Efficace des Longs Contextes dans les Grands Modèles de Langage

LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Résumé

Summary

Support

Support