観察、推論、検索:エージェント的映像推論のためのオープンウェブ映像深層研究ベンチマーク
Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
January 11, 2026
著者: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI
要旨
現実世界の映像質問応答シナリオでは、映像が提供する視覚的手がかりは局所的である一方、検証可能な回答はオープンウェブ上に分散している。このためモデルは、フレーム間の手がかり抽出、反復的検索、マルチホップ推論に基づく検証を統合的に行う必要がある。この課題に対処するため、我々は初の映像深層調査ベンチマーク「VideoDR」を構築した。VideoDRは映像条件付きオープンドメイン映像質問応答を中核とし、フレーム間の視覚的アンカー抽出、対話的ウェブ検索、映像とウェブの統合証拠に基づくマルチホップ推論を要求する。厳格な人手注釈と品質管理を通じて、6つの意味領域にわたる高品質な映像深層調査サンプルを取得した。
ワークフローとエージェントの両パラダイムにおいて、複数のクローズドソース及びオープンソースのマルチモーダル大規模言語モデルを評価した結果、エージェント方式が常にワークフロー方式を上回るわけではないことが明らかになった:その優位性は、長い検索連鎖において初期の映像アンカーを維持するモデルの能力に依存する。さらに詳細分析により、目標ドリフトと長期的な一貫性が中核的なボトルネックであることが示された。
総括すると、VideoDRはオープンウェブ環境における映像エージェントの研究ための体系的なベンチマークを提供し、次世代の映像深層調査エージェントが直面する核心的課題を明らかにした。
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.