BrowseComp-V^3: Un benchmark visivo, verticale e verificabile per agenti di navigazione multimodali

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM), dotati di capacità di pianificazione e utilizzo di strumenti sempre più avanzate, si stanno evolvendo in agenti autonomi in grado di effettuare navigazione web multimodale e ricerche approfondite in ambienti open-world. Tuttavia, i benchmark esistenti per la navigazione multimodale rimangono limitati nella complessità dei compiti, nell'accessibilità delle evidenze e nella granularità della valutazione, ostacolando valutazioni complete e riproducibili delle capacità di ricerca approfondita. Per affrontare queste limitazioni, introduciamo BrowseComp-V^3, un nuovo benchmark costituito da 300 domande accuratamente selezionate e complesse, che abbracciano domini diversi. Il benchmark enfatizza un ragionamento approfondito, multilivello e multi-hop cross-modale, in cui le evidenze critiche sono intercalate tra le modalità testuale e visiva all'interno e attraverso le pagine web. Tutte le evidenze di supporto devono essere rigorosamente ricercabili pubblicamente, garantendo equità e riproducibilità. Oltre all'accuratezza della risposta finale, incorporiamo un meccanismo di valutazione del processo guidato da sottobiettivi e convalidato da esperti, che consente un'analisi granulare dei comportamenti di ragionamento intermedi e una caratterizzazione sistematica dei limiti delle capacità. Inoltre, proponiamo OmniSeeker, un framework unificato per agenti di navigazione multimodale che integra diversi strumenti di ricerca web e percezione visiva. Esperimenti completi dimostrano che anche i modelli più all'avanguardia raggiungono solo un'accuratezza del 36% sul nostro benchmark, rivelando colli di bottiglia critici nell'integrazione delle informazioni multimodali e nella percezione fine. I nostri risultati evidenziano un divario fondamentale tra le capacità dei modelli attuali e una ricerca approfondita multimodale robusta in scenari reali.

English

Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-V^3, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.

BrowseComp-V^3: Un benchmark visivo, verticale e verificabile per agenti di navigazione multimodali

BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Abstract

Support