ChatPaper.aiChatPaper

CRAG-MM: マルチモーダル・マルチターン包括的RAGベンチマーク

CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

October 30, 2025
著者: Jiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong
cs.AI

要旨

スマートグラスなどのウェアラブルデバイスは、ユーザーが視野内の実体に関する情報を取得することを可能にし、人々が周囲環境と相互作用する方法を変革しつつある。マルチモーダル検索拡張生成(MM-RAG)は、このような質問を支援する上で重要な役割を果たすが、特にウェアラブルシナリオにおけるこのタスクの包括的なベンチマークは未だ存在しない。このギャップを埋めるため、我々はCRAG-MMを提案する。これは、マルチモーダル・マルチターン対話のための包括的RAGベンチマークである。CRAG-MMは、13のドメインにわたる6.5Kの多様な(画像、質問、回答)トリプレットと2Kの視覚ベースのマルチターン対話を含み、そのうち6.2Kの画像はウェアラブルデバイスからの撮影を模倣するために設計されたエゴセントリック画像である。質問は、5種類の画質問題、6種類の質問タイプ、実体の人気度のばらつき、情報の動的性質の違い、異なる対話ターンなど、現実世界のシナリオと課題を反映するように注意深く構築した。我々は、単一ソース拡張、複数ソース拡張、マルチターン対話の3つのタスクを設計し、それぞれに画像-KG検索とウェブページ検索のための関連する検索コーパスとAPIを組み合わせた。評価の結果、単純なRAGアプローチはCRAG-MMの単一ターンQAおよびマルチターンQAにおいてそれぞれ32%、43%の真実性しか達成できないのに対し、最先端の産業界のソリューションも同程度の品質(32%/45%)であり、改善の余地が十分にあることが示された。このベンチマークはKDD Cup 2025で採用され、約1,000人の参加者と5,000件の提出を集め、優勝ソリューションはベースライン性能を28%改善し、この分野の発展に対する早期の影響力を示している。
English
Wearable devices such as smart glasses are transforming the way people interact with their surroundings, enabling users to seek information regarding entities in their view. Multi-Modal Retrieval-Augmented Generation (MM-RAG) plays a key role in supporting such questions, yet there is still no comprehensive benchmark for this task, especially regarding wearables scenarios. To fill this gap, we present CRAG-MM -- a Comprehensive RAG benchmark for Multi-modal Multi-turn conversations. CRAG-MM contains a diverse set of 6.5K (image, question, answer) triplets and 2K visual-based multi-turn conversations across 13 domains, including 6.2K egocentric images designed to mimic captures from wearable devices. We carefully constructed the questions to reflect real-world scenarios and challenges, including five types of image-quality issues, six question types, varying entity popularity, differing information dynamism, and different conversation turns. We design three tasks: single-source augmentation, multi-source augmentation, and multi-turn conversations -- each paired with an associated retrieval corpus and APIs for both image-KG retrieval and webpage retrieval. Our evaluation shows that straightforward RAG approaches achieve only 32% and 43% truthfulness on CRAG-MM single- and multi-turn QA, respectively, whereas state-of-the-art industry solutions have similar quality (32%/45%), underscoring ample room for improvement. The benchmark has hosted KDD Cup 2025, attracting about 1K participants and 5K submissions, with winning solutions improving baseline performance by 28%, highlighting its early impact on advancing the field.
PDF151December 2, 2025