CRAG - 종합 RAG 벤치마크
CRAG -- Comprehensive RAG Benchmark
June 7, 2024
저자: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI
초록
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 최근 대규모 언어 모델(LLM)의 지식 부족 문제를 완화하기 위한 유망한 솔루션으로 떠오르고 있습니다. 그러나 기존의 RAG 데이터셋은 실제 세계의 질의응답(QA) 작업이 가진 다양성과 동적 특성을 충분히 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 4,409개의 질문-답변 쌍과 웹 및 지식 그래프(KG) 검색을 시뮬레이션하기 위한 모의 API로 구성된 포괄적인 RAG 벤치마크(Comprehensive RAG Benchmark, CRAG)를 소개합니다. CRAG는 다섯 개의 도메인과 여덟 개의 질문 카테고리에 걸쳐 다양한 질문을 포함하도록 설계되었으며, 대중적부터 롱테일에 이르는 다양한 엔티티 인기도와 연 단위부터 초 단위까지의 시간적 동적 특성을 반영합니다. 이 벤치마크에 대한 평가는 완전히 신뢰할 수 있는 QA에 이르기까지의 격차를 강조합니다. 가장 진보된 LLM들조차 CRAG에서 34% 이하의 정확도를 보이는 반면, 단순히 RAG를 추가하는 방식은 정확도를 44%로만 향상시킵니다. 최신 산업용 RAG 솔루션도 환각(hallucination) 없이 63%의 질문에만 답변할 수 있습니다. CRAG는 또한 더 높은 동적 특성, 더 낮은 인기도, 또는 더 높은 복잡성을 가진 사실에 대한 질문에 대한 정확도가 훨씬 낮다는 것을 보여주며, 이는 향후 연구 방향을 제시합니다. CRAG 벤치마크는 KDD Cup 2024 챌린지의 기반을 마련했으며, 대회 시작 후 50일 이내에 수천 명의 참가자와 제출물을 유치했습니다. 우리는 RAG 솔루션과 일반 QA 솔루션의 발전을 위해 연구 커뮤니티에 CRAG를 유지할 것을 약속합니다.
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising
solution to alleviate Large Language Model (LLM)'s deficiency in lack of
knowledge. Existing RAG datasets, however, do not adequately represent the
diverse and dynamic nature of real-world Question Answering (QA) tasks. To
bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual
question answering benchmark of 4,409 question-answer pairs and mock APIs to
simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a
diverse array of questions across five domains and eight question categories,
reflecting varied entity popularity from popular to long-tail, and temporal
dynamisms ranging from years to seconds. Our evaluation on this benchmark
highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve
<=34% accuracy on CRAG, adding RAG in a straightforward manner improves the
accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63%
questions without any hallucination. CRAG also reveals much lower accuracy in
answering questions regarding facts with higher dynamism, lower popularity, or
higher complexity, suggesting future research directions. The CRAG benchmark
laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of
participants and submissions within the first 50 days of the competition. We
commit to maintaining CRAG to serve research communities in advancing RAG
solutions and general QA solutions.Summary
AI-Generated Summary