ChatPaper.aiChatPaper

어떤 문서도 놓치지 마라: 확장된 다중 문서 QA를 통한 장문맥 LLM 벤치마킹

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

June 25, 2024
저자: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
cs.AI

초록

장문맥 모델링 능력이 광범위한 관심을 끌면서, 초대형 문맥 윈도우를 가진 대형 언어 모델(LLMs)이 등장하고 있습니다. 한편, 장문맥 LLMs를 평가하기 위한 벤치마크도 점차 따라잡고 있습니다. 그러나 기존 벤치마크들은 테스트 케이스의 길이를 인위적으로 늘리기 위해 관련 없는 잡음 텍스트를 사용하여, 실제 장문맥 응용 시나리오와는 차이가 있습니다. 이러한 격차를 해소하기 위해, 우리는 확장된 다중 문서 질의응답(QA)을 통해 현실적인 시나리오에 부합하는 새로운 장문맥 벤치마크인 Loong을 제안합니다. 일반적인 문서 QA와 달리, Loong의 테스트 케이스에서는 각 문서가 최종 답변과 관련이 있으며, 어떤 문서를 무시하더라도 답변 실패로 이어집니다. 더 나아가, Loong은 Spotlight Locating, Comparison, Clustering, Chain of Reasoning 등 네 가지 유형의 작업과 다양한 문맥 길이를 도입하여, 장문맥 이해에 대한 보다 현실적이고 포괄적인 평가를 가능하게 합니다. 광범위한 실험 결과, 기존의 장문맥 언어 모델들은 여전히 상당한 개선의 여지가 있음을 보여줍니다. 검색 증강 생성(RAG)은 낮은 성능을 보이며, Loong이 모델의 장문맥 모델링 능력을 신뢰롭게 평가할 수 있음을 입증합니다.
English
Long-context modeling capabilities have garnered widespread attention, leading to the emergence of Large Language Models (LLMs) with ultra-context windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually catching up. However, existing benchmarks employ irrelevant noise texts to artificially extend the length of test cases, diverging from the real-world scenarios of long-context applications. To bridge this gap, we propose a novel long-context benchmark, Loong, aligning with realistic scenarios through extended multi-document question answering (QA). Unlike typical document QA, in Loong's test cases, each document is relevant to the final answer, ignoring any document will lead to the failure of the answer. Furthermore, Loong introduces four types of tasks with a range of context lengths: Spotlight Locating, Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic and comprehensive evaluation of long-context understanding. Extensive experiments indicate that existing long-context language models still exhibit considerable potential for enhancement. Retrieval augmented generation (RAG) achieves poor performance, demonstrating that Loong can reliably assess the model's long-context modeling capabilities.

Summary

AI-Generated Summary

PDF171November 29, 2024