ChatPaper.aiChatPaper

MM-BrowseComp: Ein umfassender Benchmark für multimodale Browsing-Agenten

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

August 14, 2025
papers.authors: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI

papers.abstract

KI-Agenten mit fortgeschrittenen Fähigkeiten im Bereich des logischen Denkens und der Werkzeugnutzung haben beeindruckende Leistungen beim tiefgehenden Websuchen gezeigt. Während bestehende Benchmarks wie BrowseComp diese Fähigkeiten bewerten, konzentrieren sie sich hauptsächlich auf textuelle Informationen und übersehen dabei die Verbreitung multimodaler Inhalte. Um diese Lücke zu schließen, führen wir MM-BrowseComp ein, einen neuartigen Benchmark, der aus 224 anspruchsvollen, handgefertigten Fragen besteht, die speziell entwickelt wurden, um die multimodalen Retrieval- und Denkfähigkeiten von Agenten zu bewerten. Diese Fragen beinhalten oft Bilder in den Eingabeaufforderungen, und entscheidende Informationen, die während des Such- und Denkprozesses auftreten, können auch in Bildern oder Videos auf Webseiten eingebettet sein. Folglich erweisen sich Methoden, die sich ausschließlich auf Text stützen, für unseren Benchmark als unzureichend. Zusätzlich stellen wir für jede Frage eine verifizierte Checkliste bereit, die eine detaillierte Analyse multimodaler Abhängigkeiten und Denkpfade ermöglicht. Unsere umfassende Bewertung von State-of-the-Art-Modellen auf MM-BrowseComp zeigt, dass selbst Spitzenmodelle wie OpenAI o3 mit Werkzeugen nur eine Genauigkeit von 29,02 % erreichen, was die suboptimalen multimodalen Fähigkeiten und das Fehlen von nativem multimodalen Denken in aktuellen Modellen unterstreicht.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated impressive performance in web browsing for deep search. While existing benchmarks such as BrowseComp evaluate these browsing abilities, they primarily focus on textual information, overlooking the prevalence of multimodal content. To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising 224 challenging, hand-crafted questions specifically designed to assess agents' multimodal retrieval and reasoning capabilities. These questions often incorporate images in prompts, and crucial information encountered during the search and reasoning process may also be embedded within images or videos on webpages. Consequently, methods relying solely on text prove insufficient for our benchmark. Additionally, we provide a verified checklist for each question, enabling fine-grained analysis of multimodal dependencies and reasoning paths. Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp reveals that even top models like OpenAI o3 with tools achieve only 29.02\% accuracy, highlighting the suboptimal multimodal capabilities and lack of native multimodal reasoning in current models.
PDF32August 20, 2025