Perdus au Milieu : Comment les Modèles de Langage Utilisent les Contextes Longs
Lost in the Middle: How Language Models Use Long Contexts
July 6, 2023
Auteurs: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang
cs.AI
Résumé
Bien que les modèles de langage récents aient la capacité de traiter des contextes longs en entrée, on sait relativement peu de choses sur la manière dont ces modèles exploitent efficacement des contextes étendus. Nous analysons la performance des modèles de langage sur deux tâches nécessitant l'identification d'informations pertinentes dans leurs contextes d'entrée : la réponse à des questions sur plusieurs documents et la récupération de paires clé-valeur. Nous constatons que la performance est souvent maximale lorsque les informations pertinentes se trouvent au début ou à la fin du contexte d'entrée, et se dégrade significativement lorsque les modèles doivent accéder à des informations situées au milieu de contextes longs. De plus, la performance diminue considérablement à mesure que le contexte d'entrée s'allonge, même pour les modèles explicitement conçus pour des contextes longs. Notre analyse permet une meilleure compréhension de la manière dont les modèles de langage utilisent leur contexte d'entrée et propose de nouveaux protocoles d'évaluation pour les futurs modèles de contexte long.
English
While recent language models have the ability to take long contexts as input,
relatively little is known about how well the language models use longer
context. We analyze language model performance on two tasks that require
identifying relevant information within their input contexts: multi-document
question answering and key-value retrieval. We find that performance is often
highest when relevant information occurs at the beginning or end of the input
context, and significantly degrades when models must access relevant
information in the middle of long contexts. Furthermore, performance
substantially decreases as the input context grows longer, even for explicitly
long-context models. Our analysis provides a better understanding of how
language models use their input context and provides new evaluation protocols
for future long-context models.