ChatPaper.aiChatPaper

CRAG - 包括的RAGベンチマーク

CRAG -- Comprehensive RAG Benchmark

June 7, 2024
著者: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI

要旨

検索拡張生成(Retrieval-Augmented Generation, RAG)は、大規模言語モデル(LLM)の知識不足を緩和する有望な解決策として最近注目を集めています。しかし、既存のRAGデータセットは、現実世界の質問応答(QA)タスクの多様性と動的な性質を十分に反映していません。このギャップを埋めるため、私たちは包括的RAGベンチマーク(Comprehensive RAG Benchmark, CRAG)を導入しました。これは、4,409の質問-回答ペアと、ウェブおよび知識グラフ(KG)検索をシミュレートするモックAPIからなる事実ベースの質問応答ベンチマークです。CRAGは、5つのドメインと8つの質問カテゴリーにわたる多様な質問を網羅し、人気からロングテールまでのエンティティの人気度、および年単位から秒単位までの時間的ダイナミズムを反映するように設計されています。このベンチマークでの評価は、完全に信頼できるQAへのギャップを浮き彫りにしています。最先端のLLMのほとんどはCRAGで34%以下の精度しか達成できず、RAGを単純に追加しても精度は44%にしか向上しませんでした。業界最先端のRAGソリューションでも、幻覚(hallucination)なしで回答できるのは63%の質問のみでした。CRAGはまた、ダイナミズムが高い、人気度が低い、または複雑度が高い事実に関する質問の精度が大幅に低いことを明らかにし、今後の研究の方向性を示唆しています。CRAGベンチマークは、KDD Cup 2024チャレンジの基盤となり、競技開始から50日以内に数千人の参加者と提出物を集めました。私たちは、RAGソリューションおよび一般的なQAソリューションの進展に貢献するため、CRAGを維持し続けることを約束します。
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation on this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of participants and submissions within the first 50 days of the competition. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions.

Summary

AI-Generated Summary

PDF497December 8, 2024