CRAG-MM: Evaluación Integral RAG Multimodal y Multiturno
CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark
October 30, 2025
Autores: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI
Resumen
Los dispositivos portátiles como las gafas inteligentes están transformando la forma en que las personas interactúan con su entorno, permitiendo a los usuarios buscar información sobre entidades en su campo visual. La Generación Aumentada por Recuperación Multimodal (MM-RAG) desempeña un papel clave para respaldar este tipo de consultas, pero aún no existe un punto de referencia integral para esta tarea, especialmente en escenarios de dispositivos portátiles. Para llenar este vacío, presentamos CRAG-MM: un punto de referencia integral de RAG para conversaciones multimodales y de múltiples turnos. CRAG-MM contiene un conjunto diverso de 6.5K trillizos (imagen, pregunta, respuesta) y 2K conversaciones multiturno basadas en visión a través de 13 dominios, incluyendo 6.2K imágenes egocéntricas diseñadas para simular capturas de dispositivos portátiles. Construimos las preguntas cuidadosamente para reflejar escenarios y desafíos del mundo real, incluyendo cinco tipos de problemas de calidad de imagen, seis tipos de preguntas, popularidad variable de entidades, diferente dinamismo de la información y distintos turnos de conversación. Diseñamos tres tareas: aumento de fuente única, aumento de múltiples fuentes y conversaciones multiturno, cada una acompañada de un corpus de recuperación asociado y APIs para recuperación de imágenes-KG y recuperación de páginas web. Nuestra evaluación muestra que los enfoques simples de RAG logran solo un 32% y 43% de veracidad en las preguntas y respuestas de turno único y multiturno de CRAG-MM, respectivamente, mientras que las soluciones industriales de vanguardia tienen una calidad similar (32%/45%), lo que subraya un amplio margen de mejora. El benchmark ha sido sede del KDD Cup 2025, atrayendo alrededor de 1K participantes y 5K envíos, y las soluciones ganadoras mejoraron el rendimiento de la línea base en un 28%, destacando su impacto temprano en el avance del campo.
English
Wearable devices such as smart glasses are transforming the way people
interact with their surroundings, enabling users to seek information regarding
entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG)
plays a key role in supporting such questions, yet there is still no
comprehensive benchmark for this task, especially regarding wearables
scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG
benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse
set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn
conversations across 13 domains, including 6.2K egocentric images designed to
mimic captures from wearable devices. We carefully constructed the questions to
reflect real-world scenarios and challenges, including five types of
image-quality issues, six question types, varying entity popularity, differing
information dynamism, and different conversation turns. We design three tasks:
single-source augmentation, multi-source augmentation, and multi-turn
conversations -- each paired with an associated retrieval corpus and APIs for
both image-KG retrieval and webpage retrieval. Our evaluation shows that
straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM
single- and multi-turn QA, respectively, whereas state-of-the-art industry
solutions have similar quality (32%/45%), underscoring ample room for
improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K
participants and 5K submissions, with winning solutions improving baseline
performance by 28%, highlighting its early impact on advancing the field.