MM-BrowseComp: Un Benchmark Completo per Agenti di Navigazione Multimodale
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents
August 14, 2025
Autori: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI
Abstract
Gli agenti AI con capacità avanzate di ragionamento e utilizzo di strumenti hanno dimostrato prestazioni impressionanti nella navigazione web per ricerche approfondite. Sebbene benchmark esistenti come BrowseComp valutino queste abilità di navigazione, si concentrano principalmente su informazioni testuali, trascurando la prevalenza di contenuti multimodali. Per colmare questa lacuna, introduciamo MM-BrowseComp, un nuovo benchmark composto da 224 domande complesse e accuratamente progettate per valutare le capacità di recupero e ragionamento multimodale degli agenti. Queste domande spesso incorporano immagini nei prompt, e informazioni cruciali incontrate durante il processo di ricerca e ragionamento possono essere incorporate anche in immagini o video presenti nelle pagine web. Di conseguenza, i metodi che si basano esclusivamente sul testo si rivelano insufficienti per il nostro benchmark. Inoltre, forniamo una checklist verificata per ogni domanda, consentendo un'analisi granulare delle dipendenze multimodali e dei percorsi di ragionamento. La nostra valutazione completa dei modelli all'avanguardia su MM-BrowseComp rivela che anche i modelli migliori come OpenAI o3 con strumenti raggiungono solo il 29,02% di accuratezza, evidenziando le capacità multimodali subottimali e la mancanza di ragionamento multimodale nativo nei modelli attuali.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated
impressive performance in web browsing for deep search. While existing
benchmarks such as BrowseComp evaluate these browsing abilities, they primarily
focus on textual information, overlooking the prevalence of multimodal content.
To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising
224 challenging, hand-crafted questions specifically designed to assess agents'
multimodal retrieval and reasoning capabilities. These questions often
incorporate images in prompts, and crucial information encountered during the
search and reasoning process may also be embedded within images or videos on
webpages. Consequently, methods relying solely on text prove insufficient for
our benchmark. Additionally, we provide a verified checklist for each question,
enabling fine-grained analysis of multimodal dependencies and reasoning paths.
Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp
reveals that even top models like OpenAI o3 with tools achieve only 29.02\%
accuracy, highlighting the suboptimal multimodal capabilities and lack of
native multimodal reasoning in current models.