CRAG-MM: Evaluación Integral RAG Multimodal y Multiturno

Resumen

Los dispositivos portátiles como las gafas inteligentes están transformando la forma en que las personas interactúan con su entorno, permitiendo a los usuarios buscar información sobre entidades en su campo visual. La Generación Aumentada por Recuperación Multimodal (MM-RAG) desempeña un papel clave para respaldar este tipo de consultas, pero aún no existe un punto de referencia integral para esta tarea, especialmente en escenarios de dispositivos portátiles. Para llenar este vacío, presentamos CRAG-MM: un punto de referencia integral de RAG para conversaciones multimodales y de múltiples turnos. CRAG-MM contiene un conjunto diverso de 6.5K trillizos (imagen, pregunta, respuesta) y 2K conversaciones multiturno basadas en visión a través de 13 dominios, incluyendo 6.2K imágenes egocéntricas diseñadas para simular capturas de dispositivos portátiles. Construimos las preguntas cuidadosamente para reflejar escenarios y desafíos del mundo real, incluyendo cinco tipos de problemas de calidad de imagen, seis tipos de preguntas, popularidad variable de entidades, diferente dinamismo de la información y distintos turnos de conversación. Diseñamos tres tareas: aumento de fuente única, aumento de múltiples fuentes y conversaciones multiturno, cada una acompañada de un corpus de recuperación asociado y APIs para recuperación de imágenes-KG y recuperación de páginas web. Nuestra evaluación muestra que los enfoques simples de RAG logran solo un 32% y 43% de veracidad en las preguntas y respuestas de turno único y multiturno de CRAG-MM, respectivamente, mientras que las soluciones industriales de vanguardia tienen una calidad similar (32%/45%), lo que subraya un amplio margen de mejora. El benchmark ha sido sede del KDD Cup 2025, atrayendo alrededor de 1K participantes y 5K envíos, y las soluciones ganadoras mejoraron el rendimiento de la línea base en un 28%, destacando su impacto temprano en el avance del campo.

English

Wearable devices such as smart glasses are transforming the way people interact with their surroundings, enabling users to seek information regarding entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG) plays a key role in supporting such questions, yet there is still no comprehensive benchmark for this task, especially regarding wearables scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn conversations across 13 domains, including 6.2K egocentric images designed to mimic captures from wearable devices. We carefully constructed the questions to reflect real-world scenarios and challenges, including five types of image-quality issues, six question types, varying entity popularity, differing information dynamism, and different conversation turns. We design three tasks: single-source augmentation, multi-source augmentation, and multi-turn conversations -- each paired with an associated retrieval corpus and APIs for both image-KG retrieval and webpage retrieval. Our evaluation shows that straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM single- and multi-turn QA, respectively, whereas state-of-the-art industry solutions have similar quality (32%/45%), underscoring ample room for improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K participants and 5K submissions, with winning solutions improving baseline performance by 28%, highlighting its early impact on advancing the field.

CRAG-MM: Evaluación Integral RAG Multimodal y Multiturno

CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

Resumen

Support