ChatPaper.aiChatPaper

CRAG -- Evaluación Integral de RAG (Recuperación Aumentada por Generación)

CRAG -- Comprehensive RAG Benchmark

June 7, 2024
Autores: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI

Resumen

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha surgido recientemente como una solución prometedora para mitigar la deficiencia de los Modelos de Lenguaje de Gran Escala (LLM) en cuanto a la falta de conocimiento. Sin embargo, los conjuntos de datos existentes de RAG no representan adecuadamente la naturaleza diversa y dinámica de las tareas reales de Respuesta a Preguntas (QA). Para cerrar esta brecha, presentamos el Benchmark Integral de RAG (CRAG), un conjunto de referencia de respuesta a preguntas factuales que incluye 4,409 pares de preguntas-respuestas y APIs simuladas para emular búsquedas en la web y en Grafos de Conocimiento (KG). CRAG está diseñado para abarcar una amplia variedad de preguntas en cinco dominios y ocho categorías de preguntas, reflejando la popularidad variada de las entidades, desde las más populares hasta las de cola larga, y dinámicas temporales que van desde años hasta segundos. Nuestra evaluación en este conjunto de referencia resalta la brecha hacia una QA completamente confiable. Mientras que la mayoría de los LLM más avanzados logran una precisión <=34% en CRAG, la adición de RAG de manera directa solo mejora la precisión al 44%. Las soluciones industriales de RAG más avanzadas solo responden correctamente el 63% de las preguntas sin generar alucinaciones. CRAG también revela una precisión mucho menor al responder preguntas sobre hechos con mayor dinamismo, menor popularidad o mayor complejidad, sugiriendo direcciones futuras de investigación. El benchmark CRAG sentó las bases para un desafío del KDD Cup 2024, atrayendo a miles de participantes y envíos en los primeros 50 días de la competencia. Nos comprometemos a mantener CRAG para servir a las comunidades de investigación en el avance de soluciones RAG y soluciones generales de QA.
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation on this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of participants and submissions within the first 50 days of the competition. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions.

Summary

AI-Generated Summary

PDF497December 8, 2024