CRAG-MM: Мультимодальный многоходовый комплексный бенчмарк RAG
CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark
October 30, 2025
Авторы: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI
Аннотация
Носимые устройства, такие как умные очки, преобразуют способ взаимодействия людей с окружающей средой, позволяя пользователям получать информацию об объектах в поле их зрения. Мультимодальная генерация с расширением контекста (MM-RAG) играет ключевую роль в поддержке таких запросов, однако до сих пор не существует всеобъемлющего бенчмарка для этой задачи, особенно для сценариев с носимой электроникой. Чтобы заполнить этот пробел, мы представляем CRAG-MM — комплексный бенчмарк RAG для мультимодальных многотурных диалогов. CRAG-MM содержит разнообразный набор из 6,5 тыс. троек (изображение, вопрос, ответ) и 2 тыс. визуально-ориентированных многотурных бесед в 13 предметных областях, включая 6,2 тыс. эгоцентричных изображений, созданных для имитации съемки с носимых устройств. Мы тщательно разработали вопросы, чтобы отразить реальные сценарии и вызовы, включая пять типов проблем с качеством изображения, шесть типов вопросов, различную популярность объектов, разную динамику информации и различное количество туров диалога. Мы определили три задачи: расширение контекста из одного источника, расширение контекста из нескольких источников и многотурные диалоги — каждая из которых снабжена соответствующим корпусом для поиска и API как для поиска по изображениям и графам знаний, так и для поиска по веб-страницам. Наша оценка показывает, что прямолинейные подходы RAG достигают лишь 32% и 43% достоверности на задачах CRAG-MM с одно- и многотурным вопросно-ответным взаимодействием соответственно, тогда как передовые отраслевые решения демонстрируют схожее качество (32%/45%), что указывает на значительный простор для улучшений. Бенчмарк был использован в рамках KDD Cup 2025, привлек около 1 тыс. участников и 5 тыс. решений, при этом победители улучшили базовые показатели на 28%, что подчеркивает его раннее влияние на развитие области.
English
Wearable devices such as smart glasses are transforming the way people
interact with their surroundings, enabling users to seek information regarding
entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG)
plays a key role in supporting such questions, yet there is still no
comprehensive benchmark for this task, especially regarding wearables
scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG
benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse
set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn
conversations across 13 domains, including 6.2K egocentric images designed to
mimic captures from wearable devices. We carefully constructed the questions to
reflect real-world scenarios and challenges, including five types of
image-quality issues, six question types, varying entity popularity, differing
information dynamism, and different conversation turns. We design three tasks:
single-source augmentation, multi-source augmentation, and multi-turn
conversations -- each paired with an associated retrieval corpus and APIs for
both image-KG retrieval and webpage retrieval. Our evaluation shows that
straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM
single- and multi-turn QA, respectively, whereas state-of-the-art industry
solutions have similar quality (32%/45%), underscoring ample room for
improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K
participants and 5K submissions, with winning solutions improving baseline
performance by 28%, highlighting its early impact on advancing the field.