CRAG-MM: Multi-modaler Multi-turn Umfassender RAG-Benchmark
CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark
October 30, 2025
papers.authors: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI
papers.abstract
Wearable-Geräte wie Smart Glasses verändern die Art und Weise, wie Menschen mit ihrer Umgebung interagieren, indem sie Nutzern ermöglichen, Informationen zu Objekten in ihrem Sichtfeld abzurufen. Multi-Modales Retrieval-Augmented Generation (MM-RAG) spielt eine Schlüsselrolle bei der Unterstützung solcher Anfragen, doch es existiert bisher kein umfassender Benchmark für diese Aufgabe, insbesondere für Wearable-Szenarien. Um diese Lücke zu schließen, stellen wir CRAG-MM vor – einen umfassenden RAG-Benchmark für multimodale, mehrfachwechselnde Konversationen. CRAG-MM enthält einen diversen Satz von 6.500 (Bild, Frage, Antwort)-Triplets und 2.000 visuell basierte Mehrfachdialoge über 13 Domänen hinweg, darunter 6.200 egocentrische Bilder, die Aufnahmen von Wearable-Geräten nachahmen. Wir haben die Fragen sorgfältig konstruiert, um realweltliche Szenarien und Herausforderungen abzubilden, einschließlich fünf Arten von Bildqualitätsproblemen, sechs Fragetypen, variierender Objektbekanntheit, unterschiedlicher Informationsdynamik und verschiedener Konversationsrunden. Wir entwerfen drei Aufgaben: Einzelquellen-Augmentierung, Multi-Quellen-Augmentierung und Mehrfachdialoge – jeweils versehen mit einem zugehörigen Retrieval-Korpus sowie APIs für Bild-Wissensgraph-Retrieval und Webseiten-Retrieval. Unsere Evaluation zeigt, dass einfache RAG-Ansätze auf CRAG-MM nur 32% bzw. 43% Wahrhaftigkeit bei Einzel- und Mehrfachfragen erreichen, während state-of-the-art Industrieprodukte ähnliche Qualität (32%/45%) aufweisen, was deutlichen Verbesserungsbedarf aufzeigt. Der Benchmark war Gastgeber des KDD Cup 2025, der etwa 1.000 Teilnehmer und 5.000 Einreichungen anzog, wobei die Gewinnerlösungen die Baseline-Leistung um 28% steigerten – ein Beleg für die frühe Wirkung des Benchmarks auf die Weiterentwicklung des Forschungsgebiets.
English
Wearable devices such as smart glasses are transforming the way people
interact with their surroundings, enabling users to seek information regarding
entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG)
plays a key role in supporting such questions, yet there is still no
comprehensive benchmark for this task, especially regarding wearables
scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG
benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse
set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn
conversations across 13 domains, including 6.2K egocentric images designed to
mimic captures from wearable devices. We carefully constructed the questions to
reflect real-world scenarios and challenges, including five types of
image-quality issues, six question types, varying entity popularity, differing
information dynamism, and different conversation turns. We design three tasks:
single-source augmentation, multi-source augmentation, and multi-turn
conversations -- each paired with an associated retrieval corpus and APIs for
both image-KG retrieval and webpage retrieval. Our evaluation shows that
straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM
single- and multi-turn QA, respectively, whereas state-of-the-art industry
solutions have similar quality (32%/45%), underscoring ample room for
improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K
participants and 5K submissions, with winning solutions improving baseline
performance by 28%, highlighting its early impact on advancing the field.