Video-BrowseComp: Benchmark della Ricerca Video Agente sul Web Aperto

Abstract

L'evoluzione degli agenti autonomi sta ridefinendo la ricerca delle informazioni, transitando dal recupero passivo a un'indagine web proattiva e aperta. Tuttavia, sebbene gli agenti testuali e multimodali statici abbiano compiuto rapidi progressi, persiste un'importante lacuna modale nell'elaborazione della modalità più dinamica del web: il video. I benchmark video esistenti si concentrano prevalentemente sulla percezione passiva, fornendo clip curati ai modelli senza richiedere recupero esterno. Essi non valutano la ricerca video agentiva, che richiede invece di interrogare attivamente le timeline video, incrociare prove disperse e verificare affermazioni sul web aperto. Per colmare questa lacuna, presentiamo Video-BrowseComp, un benchmark impegnativo composto da 210 domande progettate per il ragionamento video agentivo sul web aperto. A differenza dei benchmark precedenti, Video-BrowseComp impone una dipendenza obbligatoria da prove visive temporali, garantendo che le risposte non possano essere derivate solo tramite ricerca testuale, ma richiedano la navigazione delle timeline video per verificare affermazioni esterne. La nostra valutazione dei modelli più avanzati riviene un collo di bottiglia critico: persino modelli potenziati dalla ricerca come GPT-5.1 (con Ricerca) raggiungono solo un'accuratezza del 15,24%. La nostra analisi mostra che questi modelli si affidano largamente a proxy testuali, eccellendo in domini ricchi di metadati (ad esempio, programmi TV con riassunti della trama) ma collassando in ambienti dinamici e poveri di metadati (ad esempio, sport, gameplay) dove l'ancoraggio visivo è essenziale. Come primo benchmark per la ricerca video sul web aperto, Video-BrowseComp avanza il campo oltre la percezione passiva verso un ragionamento video proattivo.

English

The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.

Video-BrowseComp: Benchmark della Ricerca Video Agente sul Web Aperto

Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

Abstract

Support