ChatPaper.aiChatPaper

Étendre la fenêtre contextuelle des LLM avec 100 échantillons

Extending LLMs' Context Window with 100 Samples

January 13, 2024
Auteurs: Yikai Zhang, Junlong Li, Pengfei Liu
cs.AI

Résumé

Les grands modèles de langage (LLMs) sont connus pour avoir une capacité d'extrapolation limitée au-delà de leur fenêtre de contexte pré-entraînée, ce qui restreint leur application dans des tâches en aval avec des entrées longues. Des études récentes ont cherché à étendre la fenêtre de contexte des LLMs en modifiant l'encodage de position rotatif (RoPE), une méthode populaire d'encodage de position adoptée par des LLMs bien connus tels que LLaMA, PaLM et GPT-NeoX. Cependant, les travaux antérieurs comme l'interpolation de position (PI) et YaRN sont gourmands en ressources et manquent d'expériences comparatives pour évaluer leur applicabilité. Dans ce travail, nous identifions le besoin inhérent pour l'entropie d'attention des LLMs (c'est-à-dire l'entropie informationnelle des scores d'attention) de maintenir la stabilité et introduisons une nouvelle extension de RoPE qui combine l'ajustement de la fréquence de base de RoPE et la mise à l'échelle des logits d'attention pour aider les LLMs à s'adapter efficacement à une fenêtre de contexte plus large. Nous validons la supériorité de notre méthode à la fois en termes de performance de fine-tuning et de robustesse pour différentes tailles de fenêtre de contexte sur diverses tâches exigeantes en contexte. Notamment, notre méthode étend la fenêtre de contexte de LLaMA-2-7B-Chat à 16 384 avec seulement 100 échantillons et 6 étapes d'entraînement, démontrant une efficacité extraordinaire. Enfin, nous explorons également comment les compositions de données et les curricula d'entraînement affectent l'extension de la fenêtre de contexte pour des tâches en aval spécifiques, suggérant que le fine-tuning des LLMs avec des conversations longues est un bon point de départ. Nous publions notre code et nos données SFT à l'adresse https://github.com/GAIR-NLP/Entropy-ABF.
English
Large Language Models (LLMs) are known to have limited extrapolation ability beyond their pre-trained context window, constraining their application in downstream tasks with lengthy inputs. Recent studies have sought to extend LLMs' context window by modifying rotary position embedding (RoPE), a popular position encoding method adopted by well-known LLMs such as LLaMA, PaLM, and GPT-NeoX. However, prior works like Position Interpolation (PI) and YaRN are resource-intensive and lack comparative experiments to assess their applicability. In this work, we identify the inherent need for LLMs' attention entropy (i.e. the information entropy of attention scores) to maintain stability and introduce a novel extension to RoPE which combines adjusting RoPE's base frequency and scaling the attention logits to help LLMs efficiently adapt to a larger context window. We validate the superiority of our method in both fine-tuning performance and robustness across different context window sizes on various context-demanding tasks. Notably, our method extends the context window of LLaMA-2-7B-Chat to 16,384 with only 100 samples and 6 training steps, showcasing extraordinary efficiency. Finally, we also explore how data compositions and training curricula affect context window extension for specific downstream tasks, suggesting fine-tuning LLMs with lengthy conversations as a good starting point. We release our code and SFT data at https://github.com/GAIR-NLP/Entropy-ABF.
PDF161December 15, 2024