ChatPaper.aiChatPaper

CRAG-MM : Benchmark RAG Complet Multimodal et Multi-tours

CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

October 30, 2025
papers.authors: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI

papers.abstract

Les dispositifs portables tels que les lunettes intelligentes transforment la manière dont les individus interagissent avec leur environnement, permettant aux utilisateurs d'obtenir des informations concernant les entités dans leur champ de vision. La Génération Augmentée par Récupération Multi-Modale (MM-RAG) joue un rôle clé pour répondre à ce type de requêtes, mais il n'existe toujours pas de benchmark complet pour cette tâche, particulièrement dans le contexte des dispositifs portables. Pour combler cette lacune, nous présentons CRAG-MM – un benchmark complet de RAG pour les conversations multi-modales et multi-tours. CRAG-MM contient un ensemble diversifié de 6,5K triplets (image, question, réponse) et de 2K conversations multi-tours basées sur le visuel couvrant 13 domaines, incluant 6,2K images égocentriques conçues pour imiter les captures provenant de dispositifs portables. Nous avons soigneusement élaboré les questions pour refléter des scénarios et défis du monde réel, incluant cinq types de problèmes de qualité d'image, six types de questions, une popularité variable des entités, une dynamique d'information différente et différents nombres de tours de conversation. Nous concevons trois tâches : l'augmentation à source unique, l'augmentation à sources multiples et les conversations multi-tours – chacune étant associée à un corpus de récupération dédié et des API pour la récupération d'images et de graphes de connaissances (KG) ainsi que pour la récupération de pages web. Notre évaluation montre que les approches RAG simples n'atteignent que 32 % et 43 % de véracité respectivement sur les questions-réponses (QA) à tour unique et multi-tours de CRAG-MM, tandis que les solutions industrielles de pointe présentent une qualité similaire (32 %/45 %), soulignant une marge d'amélioration substantielle. Le benchmark a accueilli la KDD Cup 2025, attirant environ 1 000 participants et 5 000 soumissions, les solutions gagnantes améliorant les performances de base de 28 %, ce qui souligne son impact précoce dans l'avancement du domaine.
English
Wearable devices such as smart glasses are transforming the way people interact with their surroundings, enabling users to seek information regarding entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG) plays a key role in supporting such questions, yet there is still no comprehensive benchmark for this task, especially regarding wearables scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn conversations across 13 domains, including 6.2K egocentric images designed to mimic captures from wearable devices. We carefully constructed the questions to reflect real-world scenarios and challenges, including five types of image-quality issues, six question types, varying entity popularity, differing information dynamism, and different conversation turns. We design three tasks: single-source augmentation, multi-source augmentation, and multi-turn conversations -- each paired with an associated retrieval corpus and APIs for both image-KG retrieval and webpage retrieval. Our evaluation shows that straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM single- and multi-turn QA, respectively, whereas state-of-the-art industry solutions have similar quality (32%/45%), underscoring ample room for improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K participants and 5K submissions, with winning solutions improving baseline performance by 28%, highlighting its early impact on advancing the field.
PDF151December 2, 2025