BrowseComp-V^3 : Un benchmark visuel, vertical et vérifiable pour les agents de navigation multimodaux
BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
February 13, 2026
papers.authors: Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui
cs.AI
papers.abstract
Les modèles de langage multimodaux (MLLM), dotés de capacités de planification et d'utilisation d'outils de plus en plus avancées, évoluent vers des agents autonomes capables d'effectuer une navigation web multimodale et une recherche approfondie dans des environnements ouverts. Cependant, les benchmarks existants pour la navigation multimodale restent limités en termes de complexité des tâches, d'accessibilité des preuves et de granularité de l'évaluation, entravant une évaluation complète et reproductible des capacités de recherche approfondie. Pour remédier à ces limitations, nous présentons BrowseComp-V^3, un nouveau benchmark composé de 300 questions soigneusement sélectionnées et difficiles, couvrant divers domaines. Ce benchmark met l'accent sur un raisonnement profond, multi-niveaux et multimodal à sauts multiples, où les preuves critiques sont entrelacées entre les modalités textuelles et visuelles au sein des pages web et entre elles. Toutes les preuves de support doivent impérativement être accessibles publiquement via une recherche, garantissant l'équité et la reproductibilité. Au-delà de la précision de la réponse finale, nous intégrons un mécanisme d'évaluation du processus piloté par des sous-buts et validé par des experts, permettant une analyse fine des comportements de raisonnement intermédiaires et une caractérisation systématique des limites des capacités. De plus, nous proposons OmniSeeker, un cadre unifié d'agent de navigation multimodale intégrant divers outils de recherche web et de perception visuelle. Des expériences complètes démontrent que même les modèles les plus performants n'atteignent qu'une précision de 36 % sur notre benchmark, révélant des goulots d'étranglement critiques dans l'intégration d'informations multimodales et la perception fine. Nos résultats soulignent un écart fondamental entre les capacités actuelles des modèles et une recherche approfondie multimodale robuste dans des contextes réels.
English
Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-V^3, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.