ChatPaper.aiChatPaper

MM-BrowseComp: Een Uitgebreide Benchmark voor Multimodale Browsing Agents

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

August 14, 2025
Auteurs: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI

Samenvatting

AI-agenten met geavanceerde redeneer- en hulpmiddelgebruikcapaciteiten hebben indrukwekkende prestaties geleverd bij het browsen op het web voor diepgaande zoekopdrachten. Hoewel bestaande benchmarks zoals BrowseComp deze browsevaardigheden evalueren, richten ze zich voornamelijk op tekstuele informatie en negeren ze de prevalentie van multimodale content. Om deze kloof te overbruggen, introduceren we MM-BrowseComp, een nieuwe benchmark bestaande uit 224 uitdagende, handgemaakte vragen die specifiek zijn ontworpen om de multimodale retrieval- en redeneercapaciteiten van agenten te beoordelen. Deze vragen bevatten vaak afbeeldingen in de prompts, en cruciale informatie die tijdens het zoek- en redeneerproces wordt tegengekomen, kan ook zijn ingebed in afbeeldingen of video's op webpagina's. Als gevolg hiervan blijken methoden die uitsluitend op tekst vertrouwen onvoldoende voor onze benchmark. Daarnaast bieden we een geverifieerde checklist voor elke vraag, waardoor een gedetailleerde analyse van multimodale afhankelijkheden en redeneerpaden mogelijk wordt. Onze uitgebreide evaluatie van state-of-the-art modellen op MM-BrowseComp toont aan dat zelfs topmodellen zoals OpenAI o3 met hulpmiddelen slechts een nauwkeurigheid van 29,02% behalen, wat de suboptimale multimodale capaciteiten en het gebrek aan native multimodaal redeneren in huidige modellen benadrukt.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated impressive performance in web browsing for deep search. While existing benchmarks such as BrowseComp evaluate these browsing abilities, they primarily focus on textual information, overlooking the prevalence of multimodal content. To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising 224 challenging, hand-crafted questions specifically designed to assess agents' multimodal retrieval and reasoning capabilities. These questions often incorporate images in prompts, and crucial information encountered during the search and reasoning process may also be embedded within images or videos on webpages. Consequently, methods relying solely on text prove insufficient for our benchmark. Additionally, we provide a verified checklist for each question, enabling fine-grained analysis of multimodal dependencies and reasoning paths. Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp reveals that even top models like OpenAI o3 with tools achieve only 29.02\% accuracy, highlighting the suboptimal multimodal capabilities and lack of native multimodal reasoning in current models.
PDF184August 20, 2025