Laat Geen Document Onbenut: Benchmarking van LLM's met Lange Context door middel van Uitgebreide Multi-Doc QA
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
June 25, 2024
Auteurs: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
cs.AI
Samenvatting
De mogelijkheden voor modellering met lange context hebben brede aandacht gekregen, wat heeft geleid tot de opkomst van Large Language Models (LLMs) met ultra-contextvensters. Tegelijkertijd beginnen benchmarks voor het evalueren van lange-context LLMs langzaam bij te benen. Bestaande benchmarks gebruiken echter irrelevante ruisteksten om de lengte van testgevallen kunstmatig te verlengen, wat afwijkt van de realistische scenario's van lange-context toepassingen. Om deze kloof te overbruggen, stellen we een nieuwe lange-context benchmark voor, genaamd Loong, die aansluit bij realistische scenario's door middel van uitgebreide multi-document vraag-antwoord (QA) taken. In tegenstelling tot typische document QA, is in Loong's testgevallen elk document relevant voor het uiteindelijke antwoord, en het negeren van een document zal leiden tot een foutief antwoord. Bovendien introduceert Loong vier soorten taken met een reeks contextlengtes: Spotlight Locating, Comparison, Clustering en Chain of Reasoning, om een realistischer en uitgebreidere evaluatie van lange-context begrip mogelijk te maken. Uitgebreide experimenten tonen aan dat bestaande lange-context taalmodellen nog steeds aanzienlijk potentieel voor verbetering vertonen. Retrieval augmented generation (RAG) presteert slecht, wat aantoont dat Loong betrouwbaar de lange-context modelleringscapaciteiten van het model kan beoordelen.
English
Long-context modeling capabilities have garnered widespread attention,
leading to the emergence of Large Language Models (LLMs) with ultra-context
windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually
catching up. However, existing benchmarks employ irrelevant noise texts to
artificially extend the length of test cases, diverging from the real-world
scenarios of long-context applications. To bridge this gap, we propose a novel
long-context benchmark, Loong, aligning with realistic scenarios through
extended multi-document question answering (QA). Unlike typical document QA, in
Loong's test cases, each document is relevant to the final answer, ignoring any
document will lead to the failure of the answer. Furthermore, Loong introduces
four types of tasks with a range of context lengths: Spotlight Locating,
Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic
and comprehensive evaluation of long-context understanding. Extensive
experiments indicate that existing long-context language models still exhibit
considerable potential for enhancement. Retrieval augmented generation (RAG)
achieves poor performance, demonstrating that Loong can reliably assess the
model's long-context modeling capabilities.