Video-BrowseComp: Het benchmarken van agent-gebaseerd videonderzoek op het open web
Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
December 28, 2025
Auteurs: Zhengyang Liang, Yan Shu, Xiangrui Liu, Minghao Qin, Kaixin Liang, Paolo Rota, Nicu Sebe, Zheng Liu, Lizi Liao
cs.AI
Samenvatting
De evolutie van autonome agents herdefinieert informatievergaring door een overgang van passief ophalen naar proactief, open-eindigend webonderzoek. Echter, terwijl tekstuele en statische multimodale agents een snelle vooruitgang hebben geboekt, blijft er een significante modaliteitskloof bestaan in de verwerking van de meest dynamische modaliteit van het web: video. Bestaande videobenchmarks richten zich voornamelijk op passieve perceptie, waarbij gecureerde clips aan modellen worden gevoerd zonder externe retrievals. Zij slagen er niet in agentisch video-onderzoek te evalueren, wat actief bevragen van videotijdlijnen, kruisverwijzing van verspreid bewijs en verificatie van beweringen tegen het open web vereist. Om deze kloof te overbruggen, presenteren wij Video-BrowseComp, een uitdagende benchmark bestaande uit 210 vragen die zijn toegesneden op open-web agentische videoredenering. In tegenstelling tot eerdere benchmarks legt Video-BrowseComp een verplichte afhankelijkheid van temporeel visueel bewijs op, waardoor wordt gegarandeerd dat antwoorden niet uitsluitend via tekstzoekopdrachten kunnen worden afgeleid, maar dat navigatie door videotijdlijnen nodig is om externe beweringen te verifiëren. Onze evaluatie van state-of-the-art modellen onthult een kritieke bottleneck: zelfs geavanceerde, met zoekfuncties versterkte modellen zoals GPT-5.1 (mét zoeken) behalen slechts 15,24% nauwkeurigheid. Onze analyse toont aan dat deze modellen grotendeels vertrouwen op tekstuele proxies, uitblinken in domeinen met rijke metadata (bijvoorbeeld tv-shows met samenvattingen), maar falen in metadata-arme, dynamische omgevingen (zoals sport, gameplay) waar visuele verankering essentieel is. Als eerste open-web video-onderzoeksbenchmark bevordert Video-BrowseComp het vakgebied voorbij passieve perceptie naar proactieve videoredenering.
English
The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.