Une étude contrôlée sur l'extension du contexte long et la généralisation dans les LLM.

papers.abstract

Une compréhension textuelle étendue et un apprentissage en contexte nécessitent des modèles linguistiques qui exploitent des contextes de document complets. En raison des défis de mise en œuvre liés à l'entraînement direct de modèles à long contexte, de nombreuses méthodes ont été proposées pour étendre les modèles afin de gérer de longs contextes. Cependant, en raison des différences dans les données et les classes de modèles, il a été difficile de comparer ces approches, ce qui a conduit à une incertitude quant à la manière d'évaluer les performances à long contexte et de savoir si elles diffèrent de l'évaluation standard. Nous mettons en œuvre un protocole contrôlé pour les méthodes d'extension avec une évaluation standardisée, en utilisant des modèles de base et des données d'extension cohérents. Notre étude apporte plusieurs éclairages sur le comportement à long contexte. Tout d'abord, nous réaffirmons le rôle critique de la perplexité en tant qu'indicateur de performance polyvalent même dans les tâches à contexte plus long. Deuxièmement, nous constatons que les méthodes d'attention approximative actuelles sous-performent systématiquement dans les tâches à long contexte. Enfin, nous confirmons que les méthodes de fine-tuning exactes sont généralement efficaces dans la plage de leur extension, tandis que l'extrapolation reste difficile. Tous les codes sources, modèles et points de contrôle seront mis à disposition en open source, favorisant la transparence et facilitant de nouvelles recherches dans ce domaine critique du développement de l'IA.

English

Broad textual understanding and in-context learning require language models that utilize full document contexts. Due to the implementation challenges associated with directly training long-context models, many methods have been proposed for extending models to handle long contexts. However, owing to differences in data and model classes, it has been challenging to compare these approaches, leading to uncertainty as to how to evaluate long-context performance and whether it differs from standard evaluation. We implement a controlled protocol for extension methods with a standardized evaluation, utilizing consistent base models and extension data. Our study yields several insights into long-context behavior. First, we reaffirm the critical role of perplexity as a general-purpose performance indicator even in longer-context tasks. Second, we find that current approximate attention methods systematically underperform across long-context tasks. Finally, we confirm that exact fine-tuning based methods are generally effective within the range of their extension, whereas extrapolation remains challenging. All codebases, models, and checkpoints will be made available open-source, promoting transparency and facilitating further research in this critical area of AI development.

Une étude contrôlée sur l'extension du contexte long et la généralisation dans les LLM.

A Controlled Study on Long Context Extension and Generalization in LLMs

papers.abstract

Support