Osservare, Ragionare e Cercare: Un Benchmark di Ricerca Approfondita su Video dal Web Aperto per il Ragionamento Agente sui Video
Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
January 11, 2026
Autori: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI
Abstract
Negli scenari reali di question answering video, i video forniscono spesso solo indizi visivi localizzati, mentre le risposte verificabili sono distribuite sul web aperto; i modelli devono quindi eseguire congiuntamente l'estrazione di indizi cross-frame, il retrieval iterativo e la verifica basata su ragionamento multi-hop. Per colmare questa lacuna, abbiamo costruito il primo benchmark di video deep research, VideoDR. VideoDR si concentra sul video question answering open-domain condizionato dal video, richiedendo l'estrazione di ancore visive cross-frame, il retrieval web interattivo e il ragionamento multi-hop su evidenze congiunte video-web; attraverso una rigorosa annotazione umana e controllo di qualità, abbiamo ottenuto campioni di alta qualità di video deep research che coprono sei domini semantici. Abbiamo valutato diversi modelli linguistici multimodali open-source e closed-source sotto i paradigmi Workflow e Agente, e i risultati mostrano che l'approccio Agente non è sistematicamente superiore a Workflow: i suoi vantaggi dipendono dalla capacità del modello di mantenere le ancore video iniziali su lunghe catene di retrieval. Un'analisi più approfondita indica che la deriva degli obiettivi e la coerenza a lungo termine sono i colli di bottiglia fondamentali. In sintesi, VideoDR fornisce un benchmark sistematico per studiare gli agenti video in ambienti web aperti e rivela le sfide chiave per le prossime generazioni di agenti di video deep research.
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.