ChatPaper.aiChatPaper

Regarder, Raisonner et Rechercher : Un Benchmark de Recherche Approfondie sur Vidéo pour le Raisonnement Agentique sur le Web Ouvert

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

January 11, 2026
papers.authors: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI

papers.abstract

Dans les scénarios réels de question-réponse vidéo, les vidéos fournissent souvent des indices visuels localisés, tandis que les réponses vérifiables sont distribuées sur le web ouvert ; les modèles doivent donc simultanément réaliser une extraction d'indices inter-images, un retrieval itératif et une vérification par raisonnement multi-sauts. Pour combler cette lacune, nous construisons le premier benchmark de recherche approfondie vidéo, VideoDR. VideoDR se concentre sur la question-réponse vidéo ouverte conditionnée par la vidéo, nécessitant l'extraction d'ancres visuelles inter-images, un retrieval web interactif et un raisonnement multi-sauts sur des preuves conjointes vidéo-web ; grâce à une annotation humaine rigoureuse et un contrôle qualité, nous obtenons des échantillons de recherche approfondie vidéo de haute qualité couvrant six domaines sémantiques. Nous évaluons plusieurs modèles de langage multimodaux fermés et open-source selon les paradigmes Workflow et Agentique, et les résultats montrent que l'approche Agentique n'est pas systématiquement supérieure à Workflow : ses gains dépendent de la capacité d'un modèle à maintenir les ancres vidéo initiales sur de longues chaînes de retrieval. Une analyse plus poussée indique que la dérive d'objectif et la cohérence à long terme sont les goulots d'étranglement centraux. En somme, VideoDR fournit un benchmark systématique pour étudier les agents vidéo en environnement web ouvert et révèle les défis clés pour les prochaines générations d'agents de recherche approfondie vidéo.
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.
PDF2097January 31, 2026