ChatPaper.aiChatPaper

MM-BrowseComp : Un Benchmark Complet pour les Agents de Navigation Multimodaux

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

August 14, 2025
papers.authors: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI

papers.abstract

Les agents IA dotés de capacités avancées de raisonnement et d'utilisation d'outils ont démontré des performances impressionnantes dans la navigation web pour des recherches approfondies. Bien que les benchmarks existants tels que BrowseComp évaluent ces capacités de navigation, ils se concentrent principalement sur les informations textuelles, négligeant la prévalence du contenu multimodal. Pour combler cette lacune, nous introduisons MM-BrowseComp, un nouveau benchmark composé de 224 questions complexes et soigneusement conçues, spécifiquement destinées à évaluer les capacités de récupération et de raisonnement multimodal des agents. Ces questions intègrent souvent des images dans les prompts, et les informations cruciales rencontrées lors du processus de recherche et de raisonnement peuvent également être intégrées dans des images ou des vidéos sur les pages web. Par conséquent, les méthodes reposant uniquement sur le texte s'avèrent insuffisantes pour notre benchmark. De plus, nous fournissons une liste de vérification validée pour chaque question, permettant une analyse fine des dépendances multimodales et des chemins de raisonnement. Notre évaluation approfondie des modèles de pointe sur MM-BrowseComp révèle que même les meilleurs modèles comme OpenAI o3 avec outils n'atteignent qu'une précision de 29,02 %, mettant en évidence les capacités multimodales sous-optimales et le manque de raisonnement multimodal natif dans les modèles actuels.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated impressive performance in web browsing for deep search. While existing benchmarks such as BrowseComp evaluate these browsing abilities, they primarily focus on textual information, overlooking the prevalence of multimodal content. To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising 224 challenging, hand-crafted questions specifically designed to assess agents' multimodal retrieval and reasoning capabilities. These questions often incorporate images in prompts, and crucial information encountered during the search and reasoning process may also be embedded within images or videos on webpages. Consequently, methods relying solely on text prove insufficient for our benchmark. Additionally, we provide a verified checklist for each question, enabling fine-grained analysis of multimodal dependencies and reasoning paths. Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp reveals that even top models like OpenAI o3 with tools achieve only 29.02\% accuracy, highlighting the suboptimal multimodal capabilities and lack of native multimodal reasoning in current models.
PDF32August 20, 2025