ChatPaper.aiChatPaper

CRAG - Benchmark complet pour RAG

CRAG -- Comprehensive RAG Benchmark

June 7, 2024
Auteurs: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI

Résumé

La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) a récemment émergé comme une solution prometteuse pour pallier le manque de connaissances des grands modèles de langage (Large Language Models, LLM). Cependant, les ensembles de données RAG existants ne représentent pas adéquatement la nature diverse et dynamique des tâches réelles de Question-Réponse (Question Answering, QA). Pour combler cette lacune, nous introduisons le Benchmark Complet RAG (Comprehensive RAG Benchmark, CRAG), un benchmark de question-réponse factuelle comprenant 4 409 paires question-réponse et des API simulées pour reproduire la recherche sur le web et dans les graphes de connaissances (Knowledge Graph, KG). CRAG est conçu pour englober une diversité de questions couvrant cinq domaines et huit catégories de questions, reflétant une popularité variée des entités, allant des plus populaires aux plus marginales, ainsi que des dynamiques temporelles allant de plusieurs années à quelques secondes. Notre évaluation sur ce benchmark met en lumière l'écart par rapport à une QA entièrement fiable. Alors que la plupart des LLM avancés atteignent une précision <= 34 % sur CRAG, l'ajout de RAG de manière simple n'améliore la précision qu'à 44 %. Les solutions RAG industrielles de pointe ne répondent correctement qu'à 63 % des questions sans aucune hallucination. CRAG révèle également une précision bien plus faible pour les questions portant sur des faits plus dynamiques, moins populaires ou plus complexes, suggérant ainsi des directions de recherche futures. Le benchmark CRAG a posé les bases d'un défi KDD Cup 2024, attirant des milliers de participants et de soumissions dans les 50 premiers jours de la compétition. Nous nous engageons à maintenir CRAG pour servir les communautés de recherche dans l'avancement des solutions RAG et des solutions générales de QA.
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation on this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of participants and submissions within the first 50 days of the competition. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions.

Summary

AI-Generated Summary

PDF497December 8, 2024