LongVideo-R1: Navegación Inteligente para la Comprensión de Videos Largos de Bajo Coste

Resumen

Este artículo aborda el desafío crítico y poco explorado de la comprensión de videos largos con bajos presupuestos computacionales. Proponemos LongVideo-R1, un agente activo de modelo de lenguaje grande multimodal (MLLM) equipado con capacidades de razonamiento, diseñado para una navegación eficiente del contexto de video, evitando la redundancia de la búsqueda exhaustiva. En el núcleo de LongVideo-R1 se encuentra un módulo de razonamiento que aprovecha pistas visuales de alto nivel para inferir el clip de video más informativo para su posterior procesamiento. Durante la inferencia, el agente inicia un recorrido a partir de resúmenes visuales de nivel superior y refina iterativamente su enfoque, deteniendo inmediatamente el proceso de exploración una vez que adquiere el conocimiento suficiente para responder a la consulta. Para facilitar el entrenamiento, primero extraemos descripciones jerárquicas de videos de CGBench, un corpus de video con anotaciones de grounding, y guiamos a GPT-5 para generar 33K trayectorias de cadena de pensamiento con herramientas de alta calidad. El agente LongVideo-R1 se ajusta mediante fine-tuning sobre el modelo Qwen-3-8B a través de un paradigma de dos etapas: ajuste fino supervisado (SFT) seguido de aprendizaje por refuerzo (RL), donde el RL emplea una función de recompensa específicamente diseñada para maximizar la navegación selectiva y eficiente de clips. Los experimentos en múltiples benchmarks de video largo validan la efectividad de nuestro método, que logra un equilibrio superior entre la precisión en preguntas y respuestas (QA) y la eficiencia. Todos los datos curados y el código fuente se proporcionan en el material suplementario y estarán disponibles públicamente. El código y los datos están disponibles en: https://github.com/qiujihao19/LongVideo-R1

English

This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1

LongVideo-R1: Navegación Inteligente para la Comprensión de Videos Largos de Bajo Coste

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Resumen

Support