CRAG -- Benchmark Abrangente de RAG
CRAG -- Comprehensive RAG Benchmark
June 7, 2024
Autores: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI
Resumo
A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) surgiu recentemente como uma solução promissora para mitigar a deficiência dos Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) em relação à falta de conhecimento. No entanto, os conjuntos de dados RAG existentes não representam adequadamente a natureza diversa e dinâmica das tarefas reais de Resposta a Perguntas (QA, do inglês Question Answering). Para preencher essa lacuna, introduzimos o Benchmark Abrangente de RAG (CRAG, do inglês Comprehensive RAG Benchmark), um benchmark de resposta a perguntas factuais composto por 4.409 pares de perguntas-respostas e APIs simuladas para representar buscas na web e em Grafos de Conhecimento (KG, do inglês Knowledge Graph). O CRAG foi projetado para abranger uma ampla variedade de perguntas em cinco domínios e oito categorias de questões, refletindo a popularidade variada de entidades, desde as mais populares até as de cauda longa, e dinâmicas temporais que variam de anos a segundos. Nossa avaliação nesse benchmark destaca a lacuna para alcançar uma QA totalmente confiável. Enquanto a maioria dos LLMs avançados atinge uma precisão <=34% no CRAG, a adição do RAG de forma direta melhora a precisão apenas para 44%. As soluções RAG de ponta da indústria respondem corretamente apenas 63% das perguntas sem qualquer alucinação. O CRAG também revela uma precisão muito menor ao responder perguntas sobre fatos com maior dinamismo, menor popularidade ou maior complexidade, sugerindo direções futuras de pesquisa. O benchmark CRAG estabeleceu as bases para o desafio KDD Cup 2024, atraindo milhares de participantes e submissões nos primeiros 50 dias da competição. Comprometemo-nos a manter o CRAG para servir às comunidades de pesquisa no avanço de soluções RAG e de QA em geral.
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising
solution to alleviate Large Language Model (LLM)'s deficiency in lack of
knowledge. Existing RAG datasets, however, do not adequately represent the
diverse and dynamic nature of real-world Question Answering (QA) tasks. To
bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual
question answering benchmark of 4,409 question-answer pairs and mock APIs to
simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a
diverse array of questions across five domains and eight question categories,
reflecting varied entity popularity from popular to long-tail, and temporal
dynamisms ranging from years to seconds. Our evaluation on this benchmark
highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve
<=34% accuracy on CRAG, adding RAG in a straightforward manner improves the
accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63%
questions without any hallucination. CRAG also reveals much lower accuracy in
answering questions regarding facts with higher dynamism, lower popularity, or
higher complexity, suggesting future research directions. The CRAG benchmark
laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of
participants and submissions within the first 50 days of the competition. We
commit to maintaining CRAG to serve research communities in advancing RAG
solutions and general QA solutions.