CRAG-MM: 다중 모드 다중 턴 종합 RAG 벤치마크
CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark
October 30, 2025
저자: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI
초록
스마트 글래스와 같은 웨어러블 기기는 사용자가 시야 내 개체에 대한 정보를 탐색할 수 있도록 하여 사람들이 주변 환경과 상호작용하는 방식을 변화시키고 있습니다. 다중 모드 검증 증강 생성(MM-RAG)은 이러한 질의를 지원하는 데 핵심적인 역할을 하지만, 특히 웨어러블 시나리오와 관련하여 이 작업을 위한 포괄적인 벤치마크는 아직 부재합니다. 이러한 공백을 메우기 위해 우리는 CRAG-MM(다중 모드 다중 턴 대화를 위한 포괄적인 RAG 벤치마크)을 제안합니다. CRAG-MM은 13개 도메인에 걸쳐 6.5K개의 다양한 (이미지, 질문, 답변) 삼중항과 2K개의 시각 기반 다중 턴 대화를 포함하며, 이 중 6.2K개의 이미지는 웨어러블 기기에서 캡처된 영상을 모방하도록 설계된 에고센트릭 이미지입니다. 우리는 실제 시나리오와 도전 과제를 반영하도록 질문을 신중하게 구성했으며, 다섯 가지 유형의 이미지 품질 문제, 여섯 가지 질문 유형, 다양한 개체 인기도, 상이한 정보 동적 특성, 그리고 다른 대화 턴을 포함합니다. 우리는 단일 소스 증강, 다중 소스 증강, 다중 턴 대화라는 세 가지 작업을 설계했으며, 각각 이미지-지식 그래프 검색과 웹페이지 검색을 위한 연관 검색 코퍼스 및 API와配对되었습니다. 우리의 평가에 따르면 단순한 RAG 접근법은 CRAG-MM 단일 턴 및 다중 턴 QA에서 각각 32%, 43%의 정확도만 달성한 반면, 최신 산업 솔루션도 유사한 품질(32%/45%)을 보여 향상 가능성이 크게 남아 있음을 시사합니다. 이 벤치마크는 KDD Cup 2025를 주최하여 약 1,000명의 참가자와 5,000건의 제출을 유치했으며, 우승 솔루션은 기준 성능을 28% 향상시켜 해당 분야 발전에 대한 초기 영향력을 입증했습니다.
English
Wearable devices such as smart glasses are transforming the way people
interact with their surroundings, enabling users to seek information regarding
entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG)
plays a key role in supporting such questions, yet there is still no
comprehensive benchmark for this task, especially regarding wearables
scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG
benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse
set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn
conversations across 13 domains, including 6.2K egocentric images designed to
mimic captures from wearable devices. We carefully constructed the questions to
reflect real-world scenarios and challenges, including five types of
image-quality issues, six question types, varying entity popularity, differing
information dynamism, and different conversation turns. We design three tasks:
single-source augmentation, multi-source augmentation, and multi-turn
conversations -- each paired with an associated retrieval corpus and APIs for
both image-KG retrieval and webpage retrieval. Our evaluation shows that
straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM
single- and multi-turn QA, respectively, whereas state-of-the-art industry
solutions have similar quality (32%/45%), underscoring ample room for
improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K
participants and 5K submissions, with winning solutions improving baseline
performance by 28%, highlighting its early impact on advancing the field.