Osservare, Ragionare e Cercare: Un Benchmark di Ricerca Approfondita su Video dal Web Aperto per il Ragionamento Agente sui Video

Abstract

Negli scenari reali di question answering video, i video forniscono spesso solo indizi visivi localizzati, mentre le risposte verificabili sono distribuite sul web aperto; i modelli devono quindi eseguire congiuntamente l'estrazione di indizi cross-frame, il retrieval iterativo e la verifica basata su ragionamento multi-hop. Per colmare questa lacuna, abbiamo costruito il primo benchmark di video deep research, VideoDR. VideoDR si concentra sul video question answering open-domain condizionato dal video, richiedendo l'estrazione di ancore visive cross-frame, il retrieval web interattivo e il ragionamento multi-hop su evidenze congiunte video-web; attraverso una rigorosa annotazione umana e controllo di qualità, abbiamo ottenuto campioni di alta qualità di video deep research che coprono sei domini semantici. Abbiamo valutato diversi modelli linguistici multimodali open-source e closed-source sotto i paradigmi Workflow e Agente, e i risultati mostrano che l'approccio Agente non è sistematicamente superiore a Workflow: i suoi vantaggi dipendono dalla capacità del modello di mantenere le ancore video iniziali su lunghe catene di retrieval. Un'analisi più approfondita indica che la deriva degli obiettivi e la coerenza a lungo termine sono i colli di bottiglia fondamentali. In sintesi, VideoDR fornisce un benchmark sistematico per studiare gli agenti video in ambienti web aperti e rivela le sfide chiave per le prossime generazioni di agenti di video deep research.

English

In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.

Osservare, Ragionare e Cercare: Un Benchmark di Ricerca Approfondita su Video dal Web Aperto per il Ragionamento Agente sui Video

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Abstract

Support