CRAG-MM: Multi-modaler Multi-turn Umfassender RAG-Benchmark

papers.abstract

Wearable-Geräte wie Smart Glasses verändern die Art und Weise, wie Menschen mit ihrer Umgebung interagieren, indem sie Nutzern ermöglichen, Informationen zu Objekten in ihrem Sichtfeld abzurufen. Multi-Modales Retrieval-Augmented Generation (MM-RAG) spielt eine Schlüsselrolle bei der Unterstützung solcher Anfragen, doch es existiert bisher kein umfassender Benchmark für diese Aufgabe, insbesondere für Wearable-Szenarien. Um diese Lücke zu schließen, stellen wir CRAG-MM vor – einen umfassenden RAG-Benchmark für multimodale, mehrfachwechselnde Konversationen. CRAG-MM enthält einen diversen Satz von 6.500 (Bild, Frage, Antwort)-Triplets und 2.000 visuell basierte Mehrfachdialoge über 13 Domänen hinweg, darunter 6.200 egocentrische Bilder, die Aufnahmen von Wearable-Geräten nachahmen. Wir haben die Fragen sorgfältig konstruiert, um realweltliche Szenarien und Herausforderungen abzubilden, einschließlich fünf Arten von Bildqualitätsproblemen, sechs Fragetypen, variierender Objektbekanntheit, unterschiedlicher Informationsdynamik und verschiedener Konversationsrunden. Wir entwerfen drei Aufgaben: Einzelquellen-Augmentierung, Multi-Quellen-Augmentierung und Mehrfachdialoge – jeweils versehen mit einem zugehörigen Retrieval-Korpus sowie APIs für Bild-Wissensgraph-Retrieval und Webseiten-Retrieval. Unsere Evaluation zeigt, dass einfache RAG-Ansätze auf CRAG-MM nur 32% bzw. 43% Wahrhaftigkeit bei Einzel- und Mehrfachfragen erreichen, während state-of-the-art Industrieprodukte ähnliche Qualität (32%/45%) aufweisen, was deutlichen Verbesserungsbedarf aufzeigt. Der Benchmark war Gastgeber des KDD Cup 2025, der etwa 1.000 Teilnehmer und 5.000 Einreichungen anzog, wobei die Gewinnerlösungen die Baseline-Leistung um 28% steigerten – ein Beleg für die frühe Wirkung des Benchmarks auf die Weiterentwicklung des Forschungsgebiets.

English

Wearable devices such as smart glasses are transforming the way people interact with their surroundings, enabling users to seek information regarding entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG) plays a key role in supporting such questions, yet there is still no comprehensive benchmark for this task, especially regarding wearables scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn conversations across 13 domains, including 6.2K egocentric images designed to mimic captures from wearable devices. We carefully constructed the questions to reflect real-world scenarios and challenges, including five types of image-quality issues, six question types, varying entity popularity, differing information dynamism, and different conversation turns. We design three tasks: single-source augmentation, multi-source augmentation, and multi-turn conversations -- each paired with an associated retrieval corpus and APIs for both image-KG retrieval and webpage retrieval. Our evaluation shows that straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM single- and multi-turn QA, respectively, whereas state-of-the-art industry solutions have similar quality (32%/45%), underscoring ample room for improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K participants and 5K submissions, with winning solutions improving baseline performance by 28%, highlighting its early impact on advancing the field.

CRAG-MM: Multi-modaler Multi-turn Umfassender RAG-Benchmark

CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

papers.abstract

Support