CRAG-MM: Benchmark Abrangente de RAG Multimodal e Multiturno
CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark
October 30, 2025
Autores: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI
Resumo
Dispositivos vestíveis, como óculos inteligentes, estão transformando a forma como as pessoas interagem com o seu entorno, permitindo que os utilizadores procurem informações sobre entidades no seu campo de visão. A Geração Aumentada por Recuperação Multimodal (MM-RAG) desempenha um papel fundamental no suporte a tais questões, mas ainda não existe um benchmark abrangente para esta tarefa, especialmente no que diz respeito a cenários de dispositivos vestíveis. Para preencher esta lacuna, apresentamos o CRAG-MM — um benchmark abrangente de RAG para conversas multimodais e multi-turno. O CRAG-MM contém um conjunto diversificado de 6,5 mil triplos (imagem, pergunta, resposta) e 2 mil conversas multi-turno baseadas em visão, abrangendo 13 domínios, incluindo 6,2 mil imagens egocêntricas concebidas para simular capturas de dispositivos vestíveis. Construímos cuidadosamente as perguntas para refletir cenários e desafios do mundo real, incluindo cinco tipos de problemas de qualidade de imagem, seis tipos de perguntas, popularidade variável de entidades, diferente dinamismo de informação e diferentes turnos de conversação. Concebemos três tarefas: aumento com fonte única, aumento com múltiplas fontes e conversas multi-turno — cada uma emparelhada com um corpus de recuperação associado e APIs para recuperação de imagem-KG e recuperação de páginas web. A nossa avaliação mostra que as abordagens de RAG diretas alcançam apenas 32% e 43% de veracidade no QA de turno único e multi-turno do CRAG-MM, respetivamente, enquanto as soluções industriais state-of-the-art têm qualidade semelhante (32%/45%), sublinhando um amplo espaço para melhorias. O benchmark acolheu a KDD Cup 2025, atraindo cerca de 1 mil participantes e 5 mil submissões, com as soluções vencedoras a melhorarem o desempenho da baseline em 28%, destacando o seu impacto precoce no avanço da área.
English
Wearable devices such as smart glasses are transforming the way people
interact with their surroundings, enabling users to seek information regarding
entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG)
plays a key role in supporting such questions, yet there is still no
comprehensive benchmark for this task, especially regarding wearables
scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG
benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse
set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn
conversations across 13 domains, including 6.2K egocentric images designed to
mimic captures from wearable devices. We carefully constructed the questions to
reflect real-world scenarios and challenges, including five types of
image-quality issues, six question types, varying entity popularity, differing
information dynamism, and different conversation turns. We design three tasks:
single-source augmentation, multi-source augmentation, and multi-turn
conversations -- each paired with an associated retrieval corpus and APIs for
both image-KG retrieval and webpage retrieval. Our evaluation shows that
straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM
single- and multi-turn QA, respectively, whereas state-of-the-art industry
solutions have similar quality (32%/45%), underscoring ample room for
improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K
participants and 5K submissions, with winning solutions improving baseline
performance by 28%, highlighting its early impact on advancing the field.