ChatPaper.aiChatPaper

Kijken, Redeneren en Zoeken: Een Videodiepte-Onderzoeksbenchmark op het Open Web voor Agentisch Videoredeneren

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

January 11, 2026
Auteurs: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI

Samenvatting

In real-world scenario's voor video question answering bieden video's vaak slechts gelokaliseerde visuele aanwijzingen, terwijl verifieerbare antwoorden verspreid zijn over het open web; modellen moeten daarom gezamenlijk kruis-frame aanwijzingextractie, iteratief retrieval en multi-hop redenering-gebaseerde verificatie uitvoeren. Om deze kloof te overbruggen, construeren we de eerste video deep research benchmark, VideoDR. VideoDR richt zich op video-gestuurde open-domein video question answering, waarvoor kruis-frame visuele anker extractie, interactief web retrieval en multi-hop redenering over gezamenlijke video-web evidence vereist is; via rigoureuze menselijke annotatie en kwaliteitscontrole verkrijgen we hoogwaardige video deep research samples verspreid over zes semantische domeinen. We evalueren meerdere closed-source en open-source multimodale large language modellen volgens zowel de Workflow- als Agentic-paradigma's, en de resultaten tonen aan dat Agentic niet consistent superieur is aan Workflow: de winst hangt af van het vermogen van een model om de initiële video-ankers over lange retrievalketens te behouden. Verdere analyse geeft aan dat goal drift en long-horizon consistentie de kernknelpunten zijn. Samenvattend biedt VideoDR een systematische benchmark voor het bestuderen van video-agents in open-web settings en onthult het de belangrijkste uitdagingen voor next-generation video deep research agents.
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.
PDF2097January 31, 2026