MM-BrowseComp: Un punto de referencia integral para agentes de navegación multimodal
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents
August 14, 2025
Autores: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI
Resumen
Los agentes de IA con capacidades avanzadas de razonamiento y uso de herramientas han demostrado un rendimiento impresionante en la navegación web para búsquedas profundas. Si bien los puntos de referencia existentes, como BrowseComp, evalúan estas habilidades de navegación, se centran principalmente en información textual, pasando por alto la prevalencia de contenido multimodal. Para cerrar esta brecha, presentamos MM-BrowseComp, un nuevo punto de referencia que comprende 224 preguntas desafiantes y cuidadosamente elaboradas, diseñadas específicamente para evaluar las capacidades de recuperación y razonamiento multimodal de los agentes. Estas preguntas a menudo incorporan imágenes en los enunciados, y la información crucial encontrada durante el proceso de búsqueda y razonamiento también puede estar incrustada en imágenes o videos en las páginas web. En consecuencia, los métodos que dependen únicamente del texto resultan insuficientes para nuestro punto de referencia. Además, proporcionamos una lista de verificación verificada para cada pregunta, lo que permite un análisis detallado de las dependencias multimodales y las rutas de razonamiento. Nuestra evaluación exhaustiva de los modelos más avanzados en MM-BrowseComp revela que incluso los mejores modelos, como OpenAI o3 con herramientas, logran solo un 29.02% de precisión, lo que destaca las capacidades multimodales subóptimas y la falta de razonamiento multimodal nativo en los modelos actuales.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated
impressive performance in web browsing for deep search. While existing
benchmarks such as BrowseComp evaluate these browsing abilities, they primarily
focus on textual information, overlooking the prevalence of multimodal content.
To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising
224 challenging, hand-crafted questions specifically designed to assess agents'
multimodal retrieval and reasoning capabilities. These questions often
incorporate images in prompts, and crucial information encountered during the
search and reasoning process may also be embedded within images or videos on
webpages. Consequently, methods relying solely on text prove insufficient for
our benchmark. Additionally, we provide a verified checklist for each question,
enabling fine-grained analysis of multimodal dependencies and reasoning paths.
Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp
reveals that even top models like OpenAI o3 with tools achieve only 29.02\%
accuracy, highlighting the suboptimal multimodal capabilities and lack of
native multimodal reasoning in current models.