MM-BrowseComp: Um Benchmark Abrangente para Agentes de Navegação Multimodal
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents
August 14, 2025
Autores: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI
Resumo
Agentes de IA com capacidades avançadas de raciocínio e uso de ferramentas têm demonstrado desempenho impressionante na navegação na web para buscas profundas. Embora benchmarks existentes, como o BrowseComp, avaliem essas habilidades de navegação, eles se concentram principalmente em informações textuais, negligenciando a prevalência de conteúdo multimodal. Para preencher essa lacuna, introduzimos o MM-BrowseComp, um novo benchmark composto por 224 questões desafiadoras e cuidadosamente elaboradas, projetadas especificamente para avaliar as capacidades de recuperação e raciocínio multimodal dos agentes. Essas questões frequentemente incorporam imagens nos prompts, e informações cruciais encontradas durante o processo de busca e raciocínio também podem estar embutidas em imagens ou vídeos nas páginas da web. Consequentemente, métodos que dependem exclusivamente de texto se mostram insuficientes para nosso benchmark. Além disso, fornecemos uma lista de verificação verificada para cada questão, permitindo uma análise detalhada das dependências multimodais e dos caminhos de raciocínio. Nossa avaliação abrangente dos modelos state-of-the-art no MM-BrowseComp revela que até mesmo modelos de ponta, como o OpenAI o3 com ferramentas, alcançam apenas 29,02% de precisão, destacando as capacidades multimodais subótimas e a falta de raciocínio multimodal nativo nos modelos atuais.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated
impressive performance in web browsing for deep search. While existing
benchmarks such as BrowseComp evaluate these browsing abilities, they primarily
focus on textual information, overlooking the prevalence of multimodal content.
To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising
224 challenging, hand-crafted questions specifically designed to assess agents'
multimodal retrieval and reasoning capabilities. These questions often
incorporate images in prompts, and crucial information encountered during the
search and reasoning process may also be embedded within images or videos on
webpages. Consequently, methods relying solely on text prove insufficient for
our benchmark. Additionally, we provide a verified checklist for each question,
enabling fine-grained analysis of multimodal dependencies and reasoning paths.
Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp
reveals that even top models like OpenAI o3 with tools achieve only 29.02\%
accuracy, highlighting the suboptimal multimodal capabilities and lack of
native multimodal reasoning in current models.