ChatPaper.aiChatPaper

VideoDeepResearch: Comprensión de Videos Largos con Uso de Herramientas Agentes

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

June 12, 2025
Autores: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou
cs.AI

Resumen

La comprensión de videos largos (LVU, por sus siglas en inglés) representa un desafío significativo para los modelos de lenguaje multimodal de gran escala (MLLMs) actuales, debido a la complejidad inherente de la tarea y a las limitaciones de la ventana de contexto. Se asume ampliamente que abordar tareas de LVU requiere MLLMs fundamentales con ventanas de contexto extendidas, capacidades sólidas de percepción visual y experiencia especializada en el dominio. En este trabajo, cuestionamos esta creencia común al presentar VideoDeepResearch, un marco agente novedoso para la comprensión de videos largos. Nuestro enfoque se basa únicamente en un modelo de razonamiento de gran escala (LRM) exclusivamente textual, combinado con un kit de herramientas multimodal modular, que incluye recuperadores multimodales y perceptores visuales, todos ellos fácilmente disponibles en la práctica. Para cada tarea de LVU, el sistema formula una estrategia de resolución de problemas mediante razonamiento, mientras accede y utiliza selectivamente el contenido esencial del video mediante el uso de herramientas. Realizamos experimentos exhaustivos en puntos de referencia populares de LVU, incluyendo MLVU, Video-MME y LVBench. Nuestros resultados demuestran que VideoDeepResearch logra mejoras sustanciales sobre los MLLMs de referencia existentes, superando el estado del arte anterior en un 9.6%, 6.6% y 3.9% en MLVU (prueba), LVBench y LongVideoBench, respectivamente. Estos hallazgos resaltan el potencial de los sistemas agentes para superar los desafíos clave en los problemas de LVU.
English
Long video understanding (LVU) presents a significant challenge for current multi-modal large language models (MLLMs) due to the task's inherent complexity and context window constraint. It is widely assumed that addressing LVU tasks requires foundation MLLMs with extended context windows, strong visual perception capabilities, and proficient domain expertise. In this work, we challenge this common belief by introducing VideoDeepResearch, a novel agentic framework for long video understanding. Our approach relies solely on a text-only large reasoning model (LRM) combined with a modular multi-modal toolkit, including multimodal retrievers and visual perceivers, all of which are readily available in practice. For each LVU task, the system formulates a problem-solving strategy through reasoning, while selectively accessing and utilizing essential video content via tool using. We conduct extensive experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench. Our results demonstrate that VideoDeepResearch achieves substantial improvements over existing MLLM baselines, surpassing the previous state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and LongVideoBench, respectively. These findings highlight the promise of agentic systems in overcoming key challenges in LVU problems.
PDF122June 13, 2025