CRAG-MM : Benchmark RAG Complet Multimodal et Multi-tours
CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark
October 30, 2025
papers.authors: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI
papers.abstract
Les dispositifs portables tels que les lunettes intelligentes transforment la manière dont les individus interagissent avec leur environnement, permettant aux utilisateurs d'obtenir des informations concernant les entités dans leur champ de vision. La Génération Augmentée par Récupération Multi-Modale (MM-RAG) joue un rôle clé pour répondre à ce type de requêtes, mais il n'existe toujours pas de benchmark complet pour cette tâche, particulièrement dans le contexte des dispositifs portables. Pour combler cette lacune, nous présentons CRAG-MM – un benchmark complet de RAG pour les conversations multi-modales et multi-tours. CRAG-MM contient un ensemble diversifié de 6,5K triplets (image, question, réponse) et de 2K conversations multi-tours basées sur le visuel couvrant 13 domaines, incluant 6,2K images égocentriques conçues pour imiter les captures provenant de dispositifs portables. Nous avons soigneusement élaboré les questions pour refléter des scénarios et défis du monde réel, incluant cinq types de problèmes de qualité d'image, six types de questions, une popularité variable des entités, une dynamique d'information différente et différents nombres de tours de conversation. Nous concevons trois tâches : l'augmentation à source unique, l'augmentation à sources multiples et les conversations multi-tours – chacune étant associée à un corpus de récupération dédié et des API pour la récupération d'images et de graphes de connaissances (KG) ainsi que pour la récupération de pages web. Notre évaluation montre que les approches RAG simples n'atteignent que 32 % et 43 % de véracité respectivement sur les questions-réponses (QA) à tour unique et multi-tours de CRAG-MM, tandis que les solutions industrielles de pointe présentent une qualité similaire (32 %/45 %), soulignant une marge d'amélioration substantielle. Le benchmark a accueilli la KDD Cup 2025, attirant environ 1 000 participants et 5 000 soumissions, les solutions gagnantes améliorant les performances de base de 28 %, ce qui souligne son impact précoce dans l'avancement du domaine.
English
Wearable devices such as smart glasses are transforming the way people
interact with their surroundings, enabling users to seek information regarding
entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG)
plays a key role in supporting such questions, yet there is still no
comprehensive benchmark for this task, especially regarding wearables
scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG
benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse
set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn
conversations across 13 domains, including 6.2K egocentric images designed to
mimic captures from wearable devices. We carefully constructed the questions to
reflect real-world scenarios and challenges, including five types of
image-quality issues, six question types, varying entity popularity, differing
information dynamism, and different conversation turns. We design three tasks:
single-source augmentation, multi-source augmentation, and multi-turn
conversations -- each paired with an associated retrieval corpus and APIs for
both image-KG retrieval and webpage retrieval. Our evaluation shows that
straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM
single- and multi-turn QA, respectively, whereas state-of-the-art industry
solutions have similar quality (32%/45%), underscoring ample room for
improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K
participants and 5K submissions, with winning solutions improving baseline
performance by 28%, highlighting its early impact on advancing the field.