LongVideo-R1: Navegação Inteligente para Compreensão de Vídeos Longos de Baixo Custo

Resumo

Este artigo aborda o desafio crítico e pouco explorado da compreensão de vídeos longos com baixos recursos computacionais. Propomos o LongVideo-R1, um agente ativo de modelo de linguagem multimodal (MLLM) equipado com capacidades de raciocínio, projetado para uma navegação eficiente no contexto do vídeo, evitando a redundância da busca exaustiva. No cerne do LongVideo-R1 está um módulo de raciocínio que aproveita pistas visuais de alto nível para inferir o clipe de vídeo mais informativo para processamento subsequente. Durante a inferência, o agente inicia a travessia a partir de resumos visuais de alto nível e refina iterativamente seu foco, interrompendo imediatamente o processo de exploração ao adquirir conhecimento suficiente para responder à consulta. Para facilitar o treinamento, primeiro extraímos legendas hierárquicas de vídeo do CGBench, um corpus de vídeo com anotações de fundamentação, e orientamos o GPT-5 para gerar 33 mil trajectórias de alta qualidade de cadeia de pensamento com ferramentas. O agente LongVideo-R1 é ajustado com base no modelo Qwen-3-8B por meio de um paradigma de dois estágios: ajuste fino supervisionado (SFT) seguido de aprendizado por reforço (RL), onde o RL emprega uma função de recompensa especificamente projetada para maximizar a navegação seletiva e eficiente de clipes. Experimentos em múltiplos benchmarks de vídeos longos validam a eficácia do nome, que apresenta um equilíbrio superior entre a precisão de QA e a eficiência. Todos os dados curados e o código-fonte são fornecidos no material suplementar e serão disponibilizados publicamente. Código e dados estão disponíveis em: https://github.com/qiujihao19/LongVideo-R1

English

This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1

LongVideo-R1: Navegação Inteligente para Compreensão de Vídeos Longos de Baixo Custo

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Resumo

Support