Une étude contrôlée sur l'extension du contexte long et la généralisation dans les LLM.
A Controlled Study on Long Context Extension and Generalization in LLMs
September 18, 2024
Auteurs: Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush
cs.AI
Résumé
Une compréhension textuelle étendue et un apprentissage en contexte nécessitent des modèles linguistiques qui exploitent des contextes de document complets. En raison des défis de mise en œuvre liés à l'entraînement direct de modèles à long contexte, de nombreuses méthodes ont été proposées pour étendre les modèles afin de gérer de longs contextes. Cependant, en raison des différences dans les données et les classes de modèles, il a été difficile de comparer ces approches, ce qui a conduit à une incertitude quant à la manière d'évaluer les performances à long contexte et de savoir si elles diffèrent de l'évaluation standard. Nous mettons en œuvre un protocole contrôlé pour les méthodes d'extension avec une évaluation standardisée, en utilisant des modèles de base et des données d'extension cohérents. Notre étude apporte plusieurs éclairages sur le comportement à long contexte. Tout d'abord, nous réaffirmons le rôle critique de la perplexité en tant qu'indicateur de performance polyvalent même dans les tâches à contexte plus long. Deuxièmement, nous constatons que les méthodes d'attention approximative actuelles sous-performent systématiquement dans les tâches à long contexte. Enfin, nous confirmons que les méthodes de fine-tuning exactes sont généralement efficaces dans la plage de leur extension, tandis que l'extrapolation reste difficile. Tous les codes sources, modèles et points de contrôle seront mis à disposition en open source, favorisant la transparence et facilitant de nouvelles recherches dans ce domaine critique du développement de l'IA.
English
Broad textual understanding and in-context learning require language models
that utilize full document contexts. Due to the implementation challenges
associated with directly training long-context models, many methods have been
proposed for extending models to handle long contexts. However, owing to
differences in data and model classes, it has been challenging to compare these
approaches, leading to uncertainty as to how to evaluate long-context
performance and whether it differs from standard evaluation. We implement a
controlled protocol for extension methods with a standardized evaluation,
utilizing consistent base models and extension data. Our study yields several
insights into long-context behavior. First, we reaffirm the critical role of
perplexity as a general-purpose performance indicator even in longer-context
tasks. Second, we find that current approximate attention methods
systematically underperform across long-context tasks. Finally, we confirm that
exact fine-tuning based methods are generally effective within the range of
their extension, whereas extrapolation remains challenging. All codebases,
models, and checkpoints will be made available open-source, promoting
transparency and facilitating further research in this critical area of AI
development.Summary
AI-Generated Summary