Video-BrowseComp: Benchmarking agentischer Videorecherche im offenen Web
Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
December 28, 2025
papers.authors: Zhengyang Liang, Yan Shu, Xiangrui Liu, Minghao Qin, Kaixin Liang, Paolo Rota, Nicu Sebe, Zheng Liu, Lizi Liao
cs.AI
papers.abstract
Die Evolution autonomer Agenten revolutioniert die Informationsbeschaffung, indem sie einen Wandel von passiver Abfrage hin zu proaktiver, ergebnisoffener Webrecherche einleitet. Während textbasierte und statische multimodale Agenten rasante Fortschritte verzeichnen, besteht jedoch nach wie vor eine erhebliche Modallitätslücke bei der Verarbeitung der dynamischsten Modalität des Webs: Video. Bestehende Video-Benchmarks konzentrieren sich überwiegend auf passive Wahrnehmung, bei der kuratierte Clips an Modelle übergeben werden, ohne externe Recherche zu erfordern. Sie bewerten keine agentenbasierte Videorecherche, die aktives Befragen von Videozeitachsen, Querverweise auf verstreute Beweise und die Verifikation von Behauptungen im offenen Web erfordert. Um diese Lücke zu schließen, präsentieren wir Video-BrowseComp, einen anspruchsvollen Benchmark mit 210 Fragen, die für ergebnisoffenes agentenbasiertes Videoverständnis konzipiert sind. Im Gegensatz zu früheren Benchmarks erzwingt Video-BrowseComp eine zwingende Abhängigkeit von zeitlicher visueller Evidenz, sodass Antworten nicht allein durch Textsuche gefunden werden können, sondern das Navigieren durch Videozeitlinien zur Überprüfung externer Behauptungen erfordern. Unsere Evaluation modernster Modelle offenbart einen kritischen Engpass: Selbst fortschrittliche suchaugmentierte Modelle wie GPT-5.1 (mit Suche) erreichen lediglich 15,24 % Genauigkeit. Unsere Analyse zeigt, dass diese Modelle weitgehend auf textuelle Stellvertreter zurückgreifen – sie glänzen in metadatengestützten Domänen (z.B. TV-Serien mit Handlungszusammenfassungen), scheitern jedoch in metadatenarmen, dynamischen Umgebungen (z.B. Sport, Gameplay), wo visuelle Verankerung essenziell ist. Als erster Benchmark für offene Videorecherche treibt Video-BrowseComp das Feld über passive Wahrnehmung hinaus hin zu proaktivem Videoverständnis voran.
English
The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.