ChatPaper.aiChatPaper

Video-BrowseComp: オープンWebにおけるエージェント型動画研究のベンチマーク

Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

December 28, 2025
著者: Zhengyang Liang, Yan Shu, Xiangrui Liu, Minghao Qin, Kaixin Liang, Paolo Rota, Nicu Sebe, Zheng Liu, Lizi Liao
cs.AI

要旨

自律エージェントの進化は、情報探索を従来の受動的検索から、能動的で広範なウェブリサーチへと変革しつつある。しかし、テキストおよび静的なマルチモーダルエージェントが急速に進歩する一方で、ウェブ上で最も動的なモダリティであるビデオを処理する能力には大きな隔たりが残っている。既存のビデオベンチマークは主に受動的な知覚に焦点を当てており、精選されたクリップをモデルに入力するだけで、外部検索を必要としない。これらは、ビデオのタイムラインを能動的に問い合わせ、分散した証拠を相互参照し、オープンウェブ上の主張を検証することを必要とする、自律的なビデオリサーチを評価できていない。この隔たりを埋めるため、我々はオープンウェブにおける自律的ビデオ推論に特化した210の質問からなる挑戦的なベンチマーク、Video-BrowseCompを提案する。従来のベンチマークとは異なり、Video-BrowseCompは時間的な視覚的証拠への必須の依存を強制し、回答がテキスト検索のみでは導き出せず、外部の主張を検証するためにビデオのタイムラインを操作する必要があることを保証する。最先端モデルの評価結果は重大なボトルネックを明らかにした:GPT-5.1(検索機能付き)のような高度な検索拡張モデルでさえ、正答率はわずか15.24%に留まった。分析の結果、これらのモデルはテキスト代理情報に大きく依存しており、メタデータが豊富な領域(例:あらすじのあるTV番組)では優れるものの、視覚的接地が不可欠なメタデータが乏しい動的環境(例:スポーツ、ゲームプレイ)では性能が大幅に低下することが判明した。オープンウェブビデオリサーチにおける最初のベンチマークとして、Video-BrowseCompは、受動的知覚を超えた能動的ビデオ推論へと研究分野を前進させる。
English
The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.
PDF91December 31, 2025