Ne laissez aucun document de côté : Évaluation des LLM à contexte étendu avec un système de questions-réponses multi-documents prolongé
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
June 25, 2024
Auteurs: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
cs.AI
Résumé
Les capacités de modélisation de contexte long ont suscité une attention généralisée, conduisant à l'émergence de modèles de langage de grande envergure (LLMs) dotés de fenêtres de contexte ultra-longues. Parallèlement, les benchmarks pour évaluer les LLMs à contexte long rattrapent progressivement leur retard. Cependant, les benchmarks existants utilisent des textes de bruit non pertinents pour prolonger artificiellement la longueur des cas de test, s'éloignant ainsi des scénarios réels d'applications à contexte long. Pour combler cette lacune, nous proposons un nouveau benchmark de contexte long, Loong, aligné sur des scénarios réalistes grâce à un système de question-réponse (QA) multi-document étendu. Contrairement au QA documentaire typique, dans les cas de test de Loong, chaque document est pertinent pour la réponse finale, et ignorer un document entraînera l'échec de la réponse. De plus, Loong introduit quatre types de tâches avec une gamme de longueurs de contexte : Localisation de point focal, Comparaison, Clustering et Chaîne de raisonnement, afin de faciliter une évaluation plus réaliste et complète de la compréhension de contexte long. Des expériences approfondies indiquent que les modèles de langage à contexte long existants présentent encore un potentiel considérable d'amélioration. La génération augmentée par récupération (RAG) obtient de faibles performances, démontrant que Loong peut évaluer de manière fiable les capacités de modélisation de contexte long des modèles.
English
Long-context modeling capabilities have garnered widespread attention,
leading to the emergence of Large Language Models (LLMs) with ultra-context
windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually
catching up. However, existing benchmarks employ irrelevant noise texts to
artificially extend the length of test cases, diverging from the real-world
scenarios of long-context applications. To bridge this gap, we propose a novel
long-context benchmark, Loong, aligning with realistic scenarios through
extended multi-document question answering (QA). Unlike typical document QA, in
Loong's test cases, each document is relevant to the final answer, ignoring any
document will lead to the failure of the answer. Furthermore, Loong introduces
four types of tasks with a range of context lengths: Spotlight Locating,
Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic
and comprehensive evaluation of long-context understanding. Extensive
experiments indicate that existing long-context language models still exhibit
considerable potential for enhancement. Retrieval augmented generation (RAG)
achieves poor performance, demonstrating that Loong can reliably assess the
model's long-context modeling capabilities.Summary
AI-Generated Summary