Kein Dokument zurücklassen: Benchmarking von Long-Context LLMs mit erweiterter Multi-Dokumenten-Frage-Antwort-Fähigkeit.
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
June 25, 2024
Autoren: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
cs.AI
Zusammenfassung
Die Fähigkeiten zur Modellierung von langem Kontext haben weitreichende Aufmerksamkeit erregt, was zur Entstehung von Großen Sprachmodellen (LLMs) mit ultralangen Kontextfenstern geführt hat. Inzwischen holen Benchmarks zur Bewertung von LLMs mit langem Kontext allmählich auf. Allerdings verwenden bestehende Benchmarks irrelevante Störtexte, um künstlich die Länge der Testfälle zu verlängern, was sich von den realen Szenarien von Anwendungen mit langem Kontext unterscheidet. Um diese Kluft zu überbrücken, schlagen wir einen neuartigen Benchmark für langen Kontext, Loong, vor, der sich durch erweiterte Multi-Dokumenten-Fragenbeantwortung (QA) an realistische Szenarien anpasst. Im Gegensatz zur typischen Dokumenten-QA sind in den Testfällen von Loong alle Dokumente relevant für die endgültige Antwort, das Ignorieren eines Dokuments führt zum Scheitern der Antwort. Darüber hinaus führt Loong vier Arten von Aufgaben mit verschiedenen Kontextlängen ein: Spotlight-Lokalisierung, Vergleich, Clustering und Kettenargumentation, um eine realistischere und umfassendere Bewertung des Verständnisses von langem Kontext zu erleichtern. Umfangreiche Experimente zeigen, dass bestehende Sprachmodelle mit langem Kontext nach wie vor beträchtliches Verbesserungspotenzial aufweisen. Die Generierung mit Rückgewinnung (RAG) erzielt eine schlechte Leistung, was zeigt, dass Loong die Fähigkeiten des Modells zur Modellierung von langem Kontext zuverlässig bewerten kann.
English
Long-context modeling capabilities have garnered widespread attention,
leading to the emergence of Large Language Models (LLMs) with ultra-context
windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually
catching up. However, existing benchmarks employ irrelevant noise texts to
artificially extend the length of test cases, diverging from the real-world
scenarios of long-context applications. To bridge this gap, we propose a novel
long-context benchmark, Loong, aligning with realistic scenarios through
extended multi-document question answering (QA). Unlike typical document QA, in
Loong's test cases, each document is relevant to the final answer, ignoring any
document will lead to the failure of the answer. Furthermore, Loong introduces
four types of tasks with a range of context lengths: Spotlight Locating,
Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic
and comprehensive evaluation of long-context understanding. Extensive
experiments indicate that existing long-context language models still exhibit
considerable potential for enhancement. Retrieval augmented generation (RAG)
achieves poor performance, demonstrating that Loong can reliably assess the
model's long-context modeling capabilities.