ChatPaper.aiChatPaper

Beobachten, Schließen und Suchen: Ein Benchmark für tiefgehende Videoanalyse auf offenen Webseiten zur agentenbasierten Videoreasoning

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

January 11, 2026
papers.authors: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI

papers.abstract

In real-worlden Videoszenarien zur Fragebeantwortung bieten Videos oft nur lokalisierte visuelle Hinweise, während verifizierbare Antworten über das offene Web verteilt sind; Modelle müssen daher gleichzeitig extrahierung von Hinweisen über Bildsequenzen hinweg, iteratives Retrieval und mehrstufige verifikationsbasierte Schlussfolgerungen durchführen. Um diese Lücke zu schließen, entwickeln wir den ersten Benchmark für tiefgehende Videoanalyse, VideoDR. VideoDR konzentriert sich auf videobasierte, offene Video-Fragebeantwortung, die Extraktion visueller Ankerpunkte über Bildsequenzen hinweg, interaktive Websuche und mehrstufiges Reasoning über kombinierte Video-Web-Evidenz erfordert; durch rigorose menschliche Annotation und Qualitätskontrolle erhalten wir hochwertige Proben tiefgehender Videoanalyse, die sechs semantische Domänen abdecken. Wir evaluieren mehrere proprietäre und open-source multimodale Großsprachmodelle unter sowohl Workflow- als auch Agenten-Paradigmen, und die Ergebnisse zeigen, dass Agenten nicht durchgängig überlegen gegenüber Workflows sind: ihre Vorteile hängen von der Fähigkeit eines Modells ab, anfängliche Videoankerpunkte über lange Retrieval-Ketten beizubehalten. Weitere Analysen zeigen, dass Zielabweichung und langfristige Konsistenz die Kernengpässe darstellen. Zusammenfassend bietet VideoDR einen systematischen Benchmark zur Untersuchung von Video-Agenten in offenen Webumgebungen und identifiziert die Schlüsselherausforderungen für Agenten der nächsten Generation zur tiefgehenden Videoanalyse.
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.
PDF2097January 31, 2026