CRAG-MM: Benchmark Abrangente de RAG Multimodal e Multiturno

Resumo

Dispositivos vestíveis, como óculos inteligentes, estão transformando a forma como as pessoas interagem com o seu entorno, permitindo que os utilizadores procurem informações sobre entidades no seu campo de visão. A Geração Aumentada por Recuperação Multimodal (MM-RAG) desempenha um papel fundamental no suporte a tais questões, mas ainda não existe um benchmark abrangente para esta tarefa, especialmente no que diz respeito a cenários de dispositivos vestíveis. Para preencher esta lacuna, apresentamos o CRAG-MM — um benchmark abrangente de RAG para conversas multimodais e multi-turno. O CRAG-MM contém um conjunto diversificado de 6,5 mil triplos (imagem, pergunta, resposta) e 2 mil conversas multi-turno baseadas em visão, abrangendo 13 domínios, incluindo 6,2 mil imagens egocêntricas concebidas para simular capturas de dispositivos vestíveis. Construímos cuidadosamente as perguntas para refletir cenários e desafios do mundo real, incluindo cinco tipos de problemas de qualidade de imagem, seis tipos de perguntas, popularidade variável de entidades, diferente dinamismo de informação e diferentes turnos de conversação. Concebemos três tarefas: aumento com fonte única, aumento com múltiplas fontes e conversas multi-turno — cada uma emparelhada com um corpus de recuperação associado e APIs para recuperação de imagem-KG e recuperação de páginas web. A nossa avaliação mostra que as abordagens de RAG diretas alcançam apenas 32% e 43% de veracidade no QA de turno único e multi-turno do CRAG-MM, respetivamente, enquanto as soluções industriais state-of-the-art têm qualidade semelhante (32%/45%), sublinhando um amplo espaço para melhorias. O benchmark acolheu a KDD Cup 2025, atraindo cerca de 1 mil participantes e 5 mil submissões, com as soluções vencedoras a melhorarem o desempenho da baseline em 28%, destacando o seu impacto precoce no avanço da área.

English

Wearable devices such as smart glasses are transforming the way people interact with their surroundings, enabling users to seek information regarding entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG) plays a key role in supporting such questions, yet there is still no comprehensive benchmark for this task, especially regarding wearables scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn conversations across 13 domains, including 6.2K egocentric images designed to mimic captures from wearable devices. We carefully constructed the questions to reflect real-world scenarios and challenges, including five types of image-quality issues, six question types, varying entity popularity, differing information dynamism, and different conversation turns. We design three tasks: single-source augmentation, multi-source augmentation, and multi-turn conversations -- each paired with an associated retrieval corpus and APIs for both image-KG retrieval and webpage retrieval. Our evaluation shows that straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM single- and multi-turn QA, respectively, whereas state-of-the-art industry solutions have similar quality (32%/45%), underscoring ample room for improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K participants and 5K submissions, with winning solutions improving baseline performance by 28%, highlighting its early impact on advancing the field.

CRAG-MM: Benchmark Abrangente de RAG Multimodal e Multiturno

CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

Resumo

Support