ChatPaper.aiChatPaper

CRAG -- Benchmark Completo per RAG

CRAG -- Comprehensive RAG Benchmark

June 7, 2024
Autori: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI

Abstract

Il Retrieval-Augmented Generation (RAG) è emerso recentemente come una soluzione promettente per mitigare la carenza di conoscenza dei Large Language Model (LLM). Tuttavia, i dataset RAG esistenti non rappresentano adeguatamente la natura diversificata e dinamica delle attività reali di Question Answering (QA). Per colmare questa lacuna, introduciamo il Comprehensive RAG Benchmark (CRAG), un benchmark di risposte a domande fattuali composto da 4.409 coppie domanda-risposta e API simulate per replicare la ricerca sul web e su Knowledge Graph (KG). CRAG è progettato per includere un'ampia gamma di domande in cinque domini e otto categorie di domande, riflettendo la varietà di popolarità delle entità, da quelle più comuni a quelle di nicchia, e dinamiche temporali che vanno dagli anni ai secondi. La nostra valutazione su questo benchmark evidenzia il divario rispetto a un QA completamente affidabile. Mentre la maggior parte degli LLM più avanzati raggiunge una precisione <=34% su CRAG, l'aggiunta di RAG in modo diretto migliora la precisione solo al 44%. Le soluzioni RAG all'avanguardia nel settore rispondono correttamente solo al 63% delle domande senza alcuna allucinazione. CRAG rivela anche una precisione molto più bassa nel rispondere a domande relative a fatti con maggiore dinamicità, minore popolarità o maggiore complessità, suggerendo direzioni future di ricerca. Il benchmark CRAG ha gettato le basi per una sfida del KDD Cup 2024, attirando migliaia di partecipanti e invii nei primi 50 giorni della competizione. Ci impegniamo a mantenere CRAG per servire le comunità di ricerca nel progresso delle soluzioni RAG e delle soluzioni QA in generale.
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation on this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of participants and submissions within the first 50 days of the competition. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions.
PDF467February 7, 2026