BrowseComp-V^3: 멀티모달 브라우징 에이전트를 위한 시각적, 수직적, 검증 가능 벤치마크
BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
February 13, 2026
저자: Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui
cs.AI
초록
다양한 영역의 계획 및 도구 활용 능력이 점차 고도화되는 멀티모드 대규모 언어 모델(MLLMs)은 개방형 환경에서 멀티모드 웹 브라우징 및 심층 검색을 수행할 수 있는 자율 에이전트로 진화하고 있습니다. 그러나 기존 멀티모드 브라우징 벤치마크는 과제 복잡성, 증거 접근성, 평가 세분화 측면에서 여전히 제한적이어서 심층 검색 능력에 대한 포괄적이고 재현 가능한 평가를 저해하고 있습니다. 이러한 한계를 해결하기 위해 우리는 다양한 영역에 걸친 300개의 신중하게 선별된 도전적 질문으로 구성된 새로운 벤치마크인 BrowseComp-V^3를 소개합니다. 이 벤치마크는 심층적, 다단계, 크로스모드 다중 홉 추론에 중점을 두며, 핵심 증거는 웹 페이지 내 및 페이지 간 텍스트와 시각 모드에 걸쳐 상호 연계됩니다. 모든 지원 증거는 공정성과 재현성을 보장하기 위해 공개적으로 검색 가능해야 합니다. 최종 답변 정확도 외에도 전문가 검증을 거친 하위 목표 기반 프로세스 평가 메커니즘을 도입하여 중간 추론 행동에 대한 세분화된 분석과 능력 경계에 대한 체계적인 특성화를 가능하게 합니다. 또한 다양한 웹 검색 및 시각 인식 도구를 통합한 통합 멀티모드 브라우징 에이전트 프레임워크인 OmniSeeker를 제안합니다. 포괄적인 실험 결과, 최첨단 모델조차도 우리 벤치마크에서 36%의 정확도만 달성하여 멀티모드 정보 통합 및 세밀한 인식 분야의 심각한 병목 현상을 드러냈습니다. 우리의 결과는 현실 세계 환경에서의 견고한 멀티모드 심층 검색과 현재 모델 능력 간의 근본적인 격차를 부각시킵니다.
English
Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-V^3, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.