ドキュメントを見落とすな:拡張マルチドキュメントQAによる長文脈LLMのベンチマーキング
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
June 25, 2024
著者: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
cs.AI
要旨
長文脈モデリング能力が広く注目を集める中、超長文脈ウィンドウを備えた大規模言語モデル(LLMs)が登場しています。一方で、長文脈LLMを評価するためのベンチマークも徐々に整備されつつあります。しかし、既存のベンチマークでは、テストケースの長さを人工的に延長するために無関係なノイズテキストを使用しており、現実世界の長文脈アプリケーションのシナリオから乖離しています。このギャップを埋めるため、我々は現実的なシナリオに沿った新しい長文脈ベンチマーク「Loong」を提案します。Loongは、複数ドキュメントにわたる質問応答(QA)を拡張することで、現実的なシナリオに整合しています。典型的なドキュメントQAとは異なり、Loongのテストケースでは、各ドキュメントが最終的な回答に関連しており、いずれかのドキュメントを無視すると回答に失敗します。さらに、Loongは、Spotlight Locating、Comparison、Clustering、Chain of Reasoningという4種類のタスクを導入し、さまざまな文脈長をカバーすることで、長文脈理解のより現実的かつ包括的な評価を可能にします。大規模な実験結果から、既存の長文脈言語モデルにはまだ大きな改善の余地があることが示されています。検索拡張生成(RAG)は低い性能しか達成できず、Loongがモデルの長文脈モデリング能力を確実に評価できることを実証しています。
English
Long-context modeling capabilities have garnered widespread attention,
leading to the emergence of Large Language Models (LLMs) with ultra-context
windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually
catching up. However, existing benchmarks employ irrelevant noise texts to
artificially extend the length of test cases, diverging from the real-world
scenarios of long-context applications. To bridge this gap, we propose a novel
long-context benchmark, Loong, aligning with realistic scenarios through
extended multi-document question answering (QA). Unlike typical document QA, in
Loong's test cases, each document is relevant to the final answer, ignoring any
document will lead to the failure of the answer. Furthermore, Loong introduces
four types of tasks with a range of context lengths: Spotlight Locating,
Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic
and comprehensive evaluation of long-context understanding. Extensive
experiments indicate that existing long-context language models still exhibit
considerable potential for enhancement. Retrieval augmented generation (RAG)
achieves poor performance, demonstrating that Loong can reliably assess the
model's long-context modeling capabilities.Summary
AI-Generated Summary