ChatPaper.aiChatPaper

CRAG-MM: Benchmark Multimodale e Multi-turn per RAG Completo

CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

October 30, 2025
Autori: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI

Abstract

I dispositivi indossabili come gli occhiali intelligenti stanno trasformando il modo in cui le persone interagiscono con l'ambiente circostante, consentendo agli utenti di ricercare informazioni relative alle entità nel loro campo visivo. La Generazione Aumentata tramite Recupero Multimodale (Multi-Modal Retrieval-Augmented Generation, MM-RAG) svolge un ruolo chiave nel supportare tali interrogativi, eppure non esiste ancora un benchmark completo per questo compito, specialmente per quanto riguarda gli scenari di dispositivi indossabili. Per colmare questa lacuna, presentiamo CRAG-MM - un benchmark RAG completo per conversazioni multimodali e multi-turno. CRAG-MM contiene un insieme diversificato di 6.5K triplette (immagine, domanda, risposta) e 2K conversazioni multi-turno basate sul visivo attraverso 13 domini, includendo 6.2K immagini egocentriche progettate per simulare acquisizioni da dispositivi indossabili. Abbiamo costruito le domande con cura per riflettere scenari e sfide del mondo reale, includendo cinque tipi di problematiche legate alla qualità dell'immagine, sei tipi di domanda, varia popolarità delle entità, diversa dinamicità dell'informazione e differenti turni di conversazione. Progettiamo tre compiti: aumento da singola fonte, aumento da più fonti e conversazioni multi-turno - ciascuno associato a un corpus di recupero dedicato e API sia per il recupero da Knowledge Graph basato su immagini che per il recupero da pagine web. La nostra valutazione mostra che gli approcci RAG diretti raggiungono solo il 32% e il 43% di veridicità rispettivamente su CRAG-MM per QA a singolo turno e multi-turno, mentre le soluzioni industriali allo stato dell'arte hanno una qualità simile (32%/45%), sottolineando un ampio margine di miglioramento. Il benchmark ha ospitato la KDD Cup 2025, attirando circa 1K partecipanti e 5K submission, con le soluzioni vincitrici che hanno migliorato le performance di base del 28%, evidenziando il suo precoce impatto nel far avanzare il campo.
English
Wearable devices such as smart glasses are transforming the way people interact with their surroundings, enabling users to seek information regarding entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG) plays a key role in supporting such questions, yet there is still no comprehensive benchmark for this task, especially regarding wearables scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn conversations across 13 domains, including 6.2K egocentric images designed to mimic captures from wearable devices. We carefully constructed the questions to reflect real-world scenarios and challenges, including five types of image-quality issues, six question types, varying entity popularity, differing information dynamism, and different conversation turns. We design three tasks: single-source augmentation, multi-source augmentation, and multi-turn conversations -- each paired with an associated retrieval corpus and APIs for both image-KG retrieval and webpage retrieval. Our evaluation shows that straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM single- and multi-turn QA, respectively, whereas state-of-the-art industry solutions have similar quality (32%/45%), underscoring ample room for improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K participants and 5K submissions, with winning solutions improving baseline performance by 28%, highlighting its early impact on advancing the field.
PDF151December 2, 2025