LongVideo-R1 : Navigation intelligente pour la compréhension économique des vidéos longues

Résumé

Ce travail aborde le défi critique et peu exploré de la compréhension de vidéos longues avec des budgets computationnels réduits. Nous proposons LongVideo-R1, un agent modèle de langage multimodal (MLLM) actif, équipé de capacités de raisonnement, conçu pour une navigation efficace dans le contexte vidéo en évitant la redondance d'une recherche exhaustive. Au cœur de LongVideo-R1 se trouve un module de raisonnement qui exploite des indices visuels de haut niveau pour déduire le clip vidéo le plus informatif pour le traitement ultérieur. Lors de l'inférence, l'agent initie un parcours à partir de résumés visuels de haut niveau et affine itérativement son focus, interrompant immédiatement le processus d'exploration dès qu'il acquiert suffisamment de connaissances pour répondre à la requête. Pour faciliter l'entraînement, nous extrayons d'abord des descriptions hiérarchiques de vidéos à partir de CGBench, un corpus vidéo avec des annotations de grounding, et guidons GPT-5 pour générer 33 000 trajectoires de haute qualité de type chaîne de pensée avec outil. L'agent LongVideo-R1 est affiné à partir du modèle Qwen-3-8B selon un paradigme en deux étapes : un affinage supervisé (SFT) suivi d'un apprentissage par renforcement (RL), où le RL utilise une fonction de récompense spécifiquement conçue pour maximiser une navigation sélective et efficace entre les clips. Les expériences sur plusieurs benchmarks de vidéos longues valident l'efficacité de notre méthode, qui présente un compromis supérieur entre la précision des questions-réponses et l'efficacité. Toutes les données organisées et le code source sont fournis dans le matériel supplémentaire et seront rendus publics. Le code et les données sont disponibles à l'adresse : https://github.com/qiujihao19/LongVideo-R1

English

This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1

LongVideo-R1 : Navigation intelligente pour la compréhension économique des vidéos longues

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Résumé

Support