VideoDeepResearch: Comprensión de Videos Largos con Uso de Herramientas Agentes
VideoDeepResearch: Long Video Understanding With Agentic Tool Using
June 12, 2025
Autores: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI
Resumen
La comprensión de videos largos (LVU, por sus siglas en inglés) representa un desafío significativo para los modelos de lenguaje multimodal de gran escala (MLLMs) actuales, debido a la complejidad inherente de la tarea y a las limitaciones de la ventana de contexto. Se asume ampliamente que abordar tareas de LVU requiere MLLMs fundamentales con ventanas de contexto extendidas, capacidades sólidas de percepción visual y experiencia especializada en el dominio. En este trabajo, cuestionamos esta creencia común al presentar VideoDeepResearch, un marco agente novedoso para la comprensión de videos largos. Nuestro enfoque se basa únicamente en un modelo de razonamiento de gran escala (LRM) exclusivamente textual, combinado con un kit de herramientas multimodal modular, que incluye recuperadores multimodales y perceptores visuales, todos ellos fácilmente disponibles en la práctica. Para cada tarea de LVU, el sistema formula una estrategia de resolución de problemas mediante razonamiento, mientras accede y utiliza selectivamente el contenido esencial del video mediante el uso de herramientas. Realizamos experimentos exhaustivos en puntos de referencia populares de LVU, incluyendo MLVU, Video-MME y LVBench. Nuestros resultados demuestran que VideoDeepResearch logra mejoras sustanciales sobre los MLLMs de referencia existentes, superando el estado del arte anterior en un 9.6%, 6.6% y 3.9% en MLVU (prueba), LVBench y LongVideoBench, respectivamente. Estos hallazgos resaltan el potencial de los sistemas agentes para superar los desafíos clave en los problemas de LVU.
English
Long video understanding (LVU) presents a significant challenge for current
multi-modal large language models (MLLMs) due to the task's inherent complexity
and context window constraint. It is widely assumed that addressing LVU tasks
requires foundation MLLMs with extended context windows, strong visual
perception capabilities, and proficient domain expertise. In this work, we
challenge this common belief by introducing VideoDeepResearch, a novel agentic
framework for long video understanding. Our approach relies solely on a
text-only large reasoning model (LRM) combined with a modular multi-modal
toolkit, including multimodal retrievers and visual perceivers, all of which
are readily available in practice. For each LVU task, the system formulates a
problem-solving strategy through reasoning, while selectively accessing and
utilizing essential video content via tool using. We conduct extensive
experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench.
Our results demonstrate that VideoDeepResearch achieves substantial
improvements over existing MLLM baselines, surpassing the previous
state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and
LongVideoBench, respectively. These findings highlight the promise of agentic
systems in overcoming key challenges in LVU problems.