CRAG -- Комплексный бенчмарк RAG
CRAG -- Comprehensive RAG Benchmark
June 7, 2024
Авторы: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
cs.AI
Аннотация
Поиском обогащенная генерация (Retrieval-Augmented Generation, RAG) недавно появилась как многообещающее решение для устранения недостатков больших языковых моделей (Large Language Model, LLM) в области недостатка знаний. Однако существующие наборы данных RAG недостаточно отражают разнообразную и динамичную природу реальных задач вопросно-ответной системы (Question Answering, QA). Для устранения этого разрыва мы представляем Comprehensive RAG Benchmark (CRAG) - набор данных для фактического вопросно-ответного тестирования, состоящий из 4 409 вопросов и ответов, а также имитирующий веб- и поисковые запросы в графах знаний (Knowledge Graph, KG). CRAG разработан для охвата широкого спектра вопросов в пяти областях и восьми категориях вопросов, отражая разнообразие популярности сущностей от популярных до долгоиграющих, а также временные динамики от лет до секунд. Наша оценка на этом тесте подчеркивает разрыв в полной достоверности ответов. В то время как большинство передовых LLM достигают <=34% точности на CRAG, добавление RAG прямым образом улучшает точность только до 44%. Самые передовые отраслевые решения RAG отвечают только на 63% вопросов без галлюцинаций. CRAG также показывает гораздо более низкую точность в ответах на вопросы, касающиеся фактов с более высокой динамикой, низкой популярностью или повышенной сложностью, что указывает на будущие направления исследований. Набор данных CRAG заложил основу для вызова KDD Cup 2024, привлекший тысячи участников и заявок в течение первых 50 дней соревнования. Мы обязуемся поддерживать CRAG для обслуживания научных сообществ в развитии решений RAG и общих решений в области QA.
English
Retrieval-Augmented Generation (RAG) has recently emerged as a promising
solution to alleviate Large Language Model (LLM)'s deficiency in lack of
knowledge. Existing RAG datasets, however, do not adequately represent the
diverse and dynamic nature of real-world Question Answering (QA) tasks. To
bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual
question answering benchmark of 4,409 question-answer pairs and mock APIs to
simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a
diverse array of questions across five domains and eight question categories,
reflecting varied entity popularity from popular to long-tail, and temporal
dynamisms ranging from years to seconds. Our evaluation on this benchmark
highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve
<=34% accuracy on CRAG, adding RAG in a straightforward manner improves the
accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63%
questions without any hallucination. CRAG also reveals much lower accuracy in
answering questions regarding facts with higher dynamism, lower popularity, or
higher complexity, suggesting future research directions. The CRAG benchmark
laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of
participants and submissions within the first 50 days of the competition. We
commit to maintaining CRAG to serve research communities in advancing RAG
solutions and general QA solutions.Summary
AI-Generated Summary