MM-BrowseComp: Een Uitgebreide Benchmark voor Multimodale Browsing Agents
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents
August 14, 2025
Auteurs: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI
Samenvatting
AI-agenten met geavanceerde redeneer- en hulpmiddelgebruikcapaciteiten hebben indrukwekkende prestaties geleverd bij het browsen op het web voor diepgaande zoekopdrachten. Hoewel bestaande benchmarks zoals BrowseComp deze browsevaardigheden evalueren, richten ze zich voornamelijk op tekstuele informatie en negeren ze de prevalentie van multimodale content. Om deze kloof te overbruggen, introduceren we MM-BrowseComp, een nieuwe benchmark bestaande uit 224 uitdagende, handgemaakte vragen die specifiek zijn ontworpen om de multimodale retrieval- en redeneercapaciteiten van agenten te beoordelen. Deze vragen bevatten vaak afbeeldingen in de prompts, en cruciale informatie die tijdens het zoek- en redeneerproces wordt tegengekomen, kan ook zijn ingebed in afbeeldingen of video's op webpagina's. Als gevolg hiervan blijken methoden die uitsluitend op tekst vertrouwen onvoldoende voor onze benchmark. Daarnaast bieden we een geverifieerde checklist voor elke vraag, waardoor een gedetailleerde analyse van multimodale afhankelijkheden en redeneerpaden mogelijk wordt. Onze uitgebreide evaluatie van state-of-the-art modellen op MM-BrowseComp toont aan dat zelfs topmodellen zoals OpenAI o3 met hulpmiddelen slechts een nauwkeurigheid van 29,02% behalen, wat de suboptimale multimodale capaciteiten en het gebrek aan native multimodaal redeneren in huidige modellen benadrukt.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated
impressive performance in web browsing for deep search. While existing
benchmarks such as BrowseComp evaluate these browsing abilities, they primarily
focus on textual information, overlooking the prevalence of multimodal content.
To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising
224 challenging, hand-crafted questions specifically designed to assess agents'
multimodal retrieval and reasoning capabilities. These questions often
incorporate images in prompts, and crucial information encountered during the
search and reasoning process may also be embedded within images or videos on
webpages. Consequently, methods relying solely on text prove insufficient for
our benchmark. Additionally, we provide a verified checklist for each question,
enabling fine-grained analysis of multimodal dependencies and reasoning paths.
Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp
reveals that even top models like OpenAI o3 with tools achieve only 29.02\%
accuracy, highlighting the suboptimal multimodal capabilities and lack of
native multimodal reasoning in current models.