ChatPaper.aiChatPaper

CRAG -- Uitgebreide RAG-benchmark

CRAG -- Comprehensive RAG Benchmark

June 7, 2024
Auteurs: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI

Samenvatting

Retrieval-Augmented Generation (RAG) is recentelijk naar voren gekomen als een veelbelovende oplossing om het gebrek aan kennis van Large Language Models (LLM's) te verlichten. Bestaande RAG-datasets vertegenwoordigen echter niet adequaat de diverse en dynamische aard van real-world Question Answering (QA)-taken. Om deze kloof te overbruggen, introduceren we de Comprehensive RAG Benchmark (CRAG), een feitelijke vraag-antwoordbenchmark met 4.409 vraag-antwoordparen en mock API's om web- en Knowledge Graph (KG)-zoekopdrachten te simuleren. CRAG is ontworpen om een diverse reeks vragen over vijf domeinen en acht vraagcategorieën te omvatten, waarbij variërende entiteitspopulariteit van populair tot long-tail en temporele dynamiek variërend van jaren tot seconden worden weerspiegeld. Onze evaluatie op deze benchmark benadrukt de kloof naar volledig betrouwbare QA. Terwijl de meest geavanceerde LLM's een nauwkeurigheid van <=34% behalen op CRAG, verbetert het toevoegen van RAG op een eenvoudige manier de nauwkeurigheid slechts tot 44%. State-of-the-art industriële RAG-oplossingen beantwoorden slechts 63% van de vragen zonder enige hallucinatie. CRAG laat ook een veel lagere nauwkeurigheid zien bij het beantwoorden van vragen over feiten met hogere dynamiek, lagere populariteit of hogere complexiteit, wat toekomstige onderzoeksrichtingen suggereert. De CRAG-benchmark legde de basis voor een KDD Cup 2024-uitdaging, die binnen de eerste 50 dagen van de competitie duizenden deelnemers en inzendingen aantrok. Wij zijn vastbesloten om CRAG te onderhouden om onderzoeksgemeenschappen te ondersteunen bij het bevorderen van RAG-oplossingen en algemene QA-oplossingen.
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation on this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of participants and submissions within the first 50 days of the competition. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions.
PDF467February 7, 2026