ChatPaper.aiChatPaper

MM-BrowseComp: 멀티모달 브라우징 에이전트를 위한 포괄적인 벤치마크

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

August 14, 2025
저자: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI

초록

고급 추론 및 도구 사용 능력을 갖춘 AI 에이전트들은 심층 검색을 위한 웹 브라우징에서 인상적인 성능을 보여왔습니다. 기존의 BrowseComp와 같은 벤치마크가 이러한 브라우징 능력을 평가하지만, 이들은 주로 텍스트 정보에 초점을 맞추어 다중 모달 콘텐츠의 보편성을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 MM-BrowseComp라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 에이전트들의 다중 모달 검색 및 추론 능력을 평가하기 위해 특별히 설계된 224개의 도전적인, 수작업으로 제작된 질문들로 구성되어 있습니다. 이러한 질문들은 종종 프롬프트에 이미지를 포함하며, 검색 및 추론 과정에서 마주치는 중요한 정보는 웹페이지의 이미지나 비디오에 내재되어 있을 수 있습니다. 결과적으로, 텍스트에만 의존하는 방법들은 우리의 벤치마크에 충분하지 않습니다. 또한, 각 질문에 대해 검증된 체크리스트를 제공하여 다중 모달 의존성과 추론 경로에 대한 세부적인 분석을 가능하게 합니다. MM-BrowseComp에서 최신 모델들을 종합적으로 평가한 결과, OpenAI o3와 같은 최상위 모델들도 도구를 사용하여 단 29.02%의 정확도만을 달성함으로써, 현재 모델들의 다중 모달 능력이 최적화되지 않았으며, 기본적인 다중 모달 추론이 부족함을 보여줍니다.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated impressive performance in web browsing for deep search. While existing benchmarks such as BrowseComp evaluate these browsing abilities, they primarily focus on textual information, overlooking the prevalence of multimodal content. To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising 224 challenging, hand-crafted questions specifically designed to assess agents' multimodal retrieval and reasoning capabilities. These questions often incorporate images in prompts, and crucial information encountered during the search and reasoning process may also be embedded within images or videos on webpages. Consequently, methods relying solely on text prove insufficient for our benchmark. Additionally, we provide a verified checklist for each question, enabling fine-grained analysis of multimodal dependencies and reasoning paths. Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp reveals that even top models like OpenAI o3 with tools achieve only 29.02\% accuracy, highlighting the suboptimal multimodal capabilities and lack of native multimodal reasoning in current models.
PDF32August 20, 2025