RecetteLongue: Recette pour une Généralisation Efficace des Longs Contextes dans les Grands Modèles de Langage
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models
August 31, 2024
Auteurs: Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi
cs.AI
Résumé
Les grands modèles de langage (LLM) sont confrontés à des défis importants pour traiter les tâches à long contexte en raison de leur taille de fenêtre contextuelle effective limitée pendant la pré-entraînement, ce qui restreint leur capacité à généraliser sur des séquences étendues. En attendant, l'extension de la fenêtre contextuelle dans les LLM à travers le post-entraînement est très gourmande en ressources. Pour remédier à cela, nous introduisons **LongRecipe**, une stratégie d'entraînement efficace pour étendre la fenêtre contextuelle des LLM, comprenant une analyse d'impact sur les jetons, une transformation des index de position et des stratégies d'optimisation de l'entraînement. Il simule des entrées de longues séquences tout en maintenant l'efficacité de l'entraînement et améliore significativement la compréhension du modèle des dépendances à longue portée. Des expériences sur trois types de LLM montrent que LongRecipe peut utiliser de longues séquences tout en ne nécessitant que 30% de la taille de la fenêtre contextuelle cible, et réduit les ressources de calcul nécessaires à l'entraînement de plus de 85% par rapport à un entraînement sur la séquence complète. De plus, LongRecipe préserve également les capacités originales des LLM dans les tâches générales. En fin de compte, *nous pouvons étendre la fenêtre contextuelle effective des LLM open-source de 8k à 128k, atteignant des performances proches de GPT-4 avec seulement un jour d'entraînement dédié en utilisant un seul GPU avec 80G de mémoire.* Notre code est disponible sur le [lien](https://github.com/zhiyuanhubj/LongRecipe).
English
Large language models (LLMs) face significant challenges in handling
long-context tasks because of their limited effective context window size
during pretraining, which restricts their ability to generalize over extended
sequences. Meanwhile, extending the context window in LLMs through
post-pretraining is highly resource-intensive. To address this, we introduce
**LongRecipe**, an efficient training strategy for extending the context window
of LLMs, including impactful token analysis, position index transformation, and
training optimization strategies. It simulates long-sequence inputs while
maintaining training efficiency and significantly improves the model's
understanding of long-range dependencies. Experiments on three types of LLMs
show that LongRecipe can utilize long sequences while requiring only 30% of the
target context window size, and reduces computational training resource over
85% compared to full sequence training. Furthermore, LongRecipe also preserves
the original LLM's capabilities in general tasks. Ultimately, *we can extend
the effective context window of open-source LLMs from 8k to 128k, achieving
performance close to GPT-4 with just one day of dedicated training using a
single GPU with 80G memory.* Our code is released at the
[link](https://github.com/zhiyuanhubj/LongRecipe).Summary
AI-Generated Summary