Observar, Razonar y Buscar: Un Benchmark de Investigación Profunda en Video en la Web Abierta para el Razonamiento Agéntico con Video
Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
January 11, 2026
Autores: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang
cs.AI
Resumen
En escenarios reales de respuesta a preguntas sobre videos, estos a menudo solo proporcionan pistas visuales localizadas, mientras que las respuestas verificables se distribuyen en la web abierta; por lo tanto, los modelos deben realizar conjuntamente extracción de pistas entre frames, recuperación iterativa y verificación basada en razonamiento multietapa. Para cerrar esta brecha, construimos el primer benchmark de investigación profunda en video, VideoDR. VideoDR se centra en la respuesta a preguntas de dominio abierto condicionadas por video, que requiere extracción de anclajes visuales entre frames, recuperación web interactiva y razonamiento multietapa sobre evidencia conjunta video-web; mediante una rigurosa anotación humana y control de calidad, obtenemos muestras de investigación profunda en video de alta calidad que abarcan seis dominios semánticos. Evaluamos múltiples modelos de lenguaje grandes multimodales, tanto de código cerrado como abierto, bajo los paradigmas de Flujo de Trabajo y Agéntico, y los resultados muestran que el enfoque Agéntico no es consistentemente superior al de Flujo de Trabajo: sus ventajas dependen de la capacidad de un modelo para mantener los anclajes visuales iniciales a lo largo de largas cadenas de recuperación. Un análisis adicional indica que la deriva de objetivos y la consistencia a largo plazo son los cuellos de botella centrales. En resumen, VideoDR proporciona un benchmark sistemático para estudiar agentes de video en entornos de web abierta y revela los desafíos clave para los agentes de investigación profunda en video de próxima generación.
English
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.