MM-BrowseComp: Un punto de referencia integral para agentes de navegación multimodal

Resumen

Los agentes de IA con capacidades avanzadas de razonamiento y uso de herramientas han demostrado un rendimiento impresionante en la navegación web para búsquedas profundas. Si bien los puntos de referencia existentes, como BrowseComp, evalúan estas habilidades de navegación, se centran principalmente en información textual, pasando por alto la prevalencia de contenido multimodal. Para cerrar esta brecha, presentamos MM-BrowseComp, un nuevo punto de referencia que comprende 224 preguntas desafiantes y cuidadosamente elaboradas, diseñadas específicamente para evaluar las capacidades de recuperación y razonamiento multimodal de los agentes. Estas preguntas a menudo incorporan imágenes en los enunciados, y la información crucial encontrada durante el proceso de búsqueda y razonamiento también puede estar incrustada en imágenes o videos en las páginas web. En consecuencia, los métodos que dependen únicamente del texto resultan insuficientes para nuestro punto de referencia. Además, proporcionamos una lista de verificación verificada para cada pregunta, lo que permite un análisis detallado de las dependencias multimodales y las rutas de razonamiento. Nuestra evaluación exhaustiva de los modelos más avanzados en MM-BrowseComp revela que incluso los mejores modelos, como OpenAI o3 con herramientas, logran solo un 29.02% de precisión, lo que destaca las capacidades multimodales subóptimas y la falta de razonamiento multimodal nativo en los modelos actuales.

English

AI agents with advanced reasoning and tool use capabilities have demonstrated impressive performance in web browsing for deep search. While existing benchmarks such as BrowseComp evaluate these browsing abilities, they primarily focus on textual information, overlooking the prevalence of multimodal content. To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising 224 challenging, hand-crafted questions specifically designed to assess agents' multimodal retrieval and reasoning capabilities. These questions often incorporate images in prompts, and crucial information encountered during the search and reasoning process may also be embedded within images or videos on webpages. Consequently, methods relying solely on text prove insufficient for our benchmark. Additionally, we provide a verified checklist for each question, enabling fine-grained analysis of multimodal dependencies and reasoning paths. Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp reveals that even top models like OpenAI o3 with tools achieve only 29.02\% accuracy, highlighting the suboptimal multimodal capabilities and lack of native multimodal reasoning in current models.

MM-BrowseComp: Un punto de referencia integral para agentes de navegación multimodal

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

Resumen

Support