ChatPaper.aiChatPaper

BrowseComp-V^3: Eine visuelle, vertikale und verifizierbare Benchmark für multimodale Browser-Agenten

BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

February 13, 2026
papers.authors: Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui
cs.AI

papers.abstract

Multimodale große Sprachmodelle (MLLMs), die mit zunehmend fortschrittlichen Planungs- und Werkzeugnutzungsfähigkeiten ausgestattet sind, entwickeln sich zu autonomen Agenten, die in der Lage sind, multimodales Web-Browsing und Tiefensuche in offenen Umgebungen durchzuführen. Allerdings sind bestehende Benchmarks für multimodales Browsing nach wie vor in Bezug auf Aufgabenkomplexität, Zugänglichkeit von Beweisen und Evaluierungsgranularität begrenzt, was umfassende und reproduzierbare Bewertungen von Tiefensuchfähigkeiten behindert. Um diese Einschränkungen zu adressieren, stellen wir BrowseComp-V^3 vor, einen neuartigen Benchmark, der aus 300 sorgfältig zusammengestellten und anspruchsvollen Fragen aus verschiedenen Domänen besteht. Der Benchmark betont tiefgreifende, mehrstufige und cross-modale Multi-Hop-Argumentation, bei der kritische Beweise über textuelle und visuelle Modalitäten hinweg innerhalb und zwischen Webseiten verwoben sind. Alle unterstützenden Beweise müssen streng öffentlich suchbar sein, um Fairness und Reproduzierbarkeit zu gewährleisten. Über die reine Endantwort-Genauigkeit hinaus integrieren wir einen expertenvalidierten, teilzielgesteuerten Prozessevaluierungsmechanismus, der eine feinkörnige Analyse von Zwischenargumentationsverhalten und eine systematische Charakterisierung von Fähigkeitsgrenzen ermöglicht. Zusätzlich schlagen wir OmniSeeker vor, einen einheitlichen Framework für multimodale Browser-Agenten, der verschiedene Web-Such- und visuelle Wahrnehmungswerkzeuge integriert. Umfassende Experimente zeigen, dass selbst state-of-the-art Modelle auf unserem Benchmark nur eine Genauigkeit von 36 % erreichen, was kritische Engpässe bei der multimodalen Informationsintegration und der feinkörnigen Wahrnehmung aufdeckt. Unsere Ergebnisse verdeutlichen eine fundamentale Lücke zwischen den aktuellen Modellfähigkeiten und einer robusten multimodalen Tiefensuche in realen Szenarien.
English
Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-V^3, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.
PDF62February 18, 2026