Jun 7
ByXiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
検索拡張生成(Retrieval-Augmented Generation, RAG)は、大規模言語モデル(LLM)の知識不足を緩和する有望な解決策として最近注目を集めています。しかし、既存のRAGデータセットは、現実世界の質問応答(QA)タスクの多様性と動的な性質を十分に反映していません。このギャップを埋めるため、私たちは包括的RAGベンチマーク(Comprehensive RAG Benchmark, CRAG)を導入しました。これは、4,409の質問-回答ペアと、ウェブおよび知識グラフ(KG)検索をシミュレートするモックAPIからなる事実ベースの質問応答ベンチマークです。CRAGは、5つのドメインと8つの質問カテゴリーにわたる多様な質問を網羅し、人気からロングテールまでのエンティティの人気度、および年単位から秒単位までの時間的ダイナミズムを反映するように設計されています。このベンチマークでの評価は、完全に信頼できるQAへのギャップを浮き彫りにしています。最先端のLLMのほとんどはCRAGで34%以下の精度しか達成できず、RAGを単純に追加しても精度は44%にしか向上しませんでした。業界最先端のRAGソリューションでも、幻覚(hallucination)なしで回答できるのは63%の質問のみでした。CRAGはまた、ダイナミズムが高い、人気度が低い、または複雑度が高い事実に関する質問の精度が大幅に低いことを明らかにし、今後の研究の方向性を示唆しています。CRAGベンチマークは、KDD Cup 2024チャレンジの基盤となり、競技開始から50日以内に数千人の参加者と提出物を集めました。私たちは、RAGソリューションおよび一般的なQAソリューションの進展に貢献するため、CRAGを維持し続けることを約束します。