ChatPaper.aiChatPaper

CRAG -- Umfassender RAG-Leistungsvergleich

CRAG -- Comprehensive RAG Benchmark

June 7, 2024
Autoren: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI

Zusammenfassung

Die Retrieval-augmentierte Generierung (RAG) hat sich kürzlich als vielversprechende Lösung zur Behebung des Mangels an Wissen bei Large Language Models (LLM) herausgestellt. Allerdings repräsentieren bestehende RAG-Datensätze nicht angemessen die vielfältige und dynamische Natur von Frage-Antwort-Aufgaben in der realen Welt. Um diese Lücke zu schließen, führen wir den umfassenden RAG-Benchmark (CRAG) ein, einen faktischen Frage-Antwort-Benchmark mit 4.409 Frage-Antwort-Paaren und simulierten APIs, um Web- und Wissensgraphensuche nachzuahmen. CRAG ist darauf ausgelegt, eine vielfältige Reihe von Fragen aus fünf Domänen und acht Fragekategorien zu umfassen, die die unterschiedliche Popularität von Entitäten von beliebt bis Nischen sowie zeitliche Dynamiken von Jahren bis Sekunden widerspiegeln. Unsere Bewertung dieses Benchmarks verdeutlicht die Lücke zu vollständig vertrauenswürdigen Frage-Antwort-Systemen. Während die meisten fortschrittlichen LLMs eine Genauigkeit von <=34% auf CRAG erreichen, verbessert die Hinzufügung von RAG auf einfache Weise die Genauigkeit nur auf 44%. Branchenführende RAG-Lösungen beantworten nur 63% der Fragen ohne Halluzinationen. CRAG zeigt auch eine deutlich geringere Genauigkeit bei der Beantwortung von Fragen zu Fakten mit höherer Dynamik, geringerer Popularität oder höherer Komplexität auf und deutet auf zukünftige Forschungsrichtungen hin. Der CRAG-Benchmark legte den Grundstein für eine KDD Cup 2024 Herausforderung, die innerhalb der ersten 50 Tage tausende Teilnehmer und Einreichungen anzog. Wir verpflichten uns, CRAG zu pflegen, um Forschungsgemeinschaften bei der Weiterentwicklung von RAG-Lösungen und allgemeinen QA-Lösungen zu unterstützen.
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation on this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of participants and submissions within the first 50 days of the competition. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions.

Summary

AI-Generated Summary

PDF497December 8, 2024