LongVideo-R1: Navigazione Intelligente per la Comprensione Economica di Video Lunghi

Abstract

Questo articolo affronta la sfida critica e poco esplorata della comprensione di video lunghi con budget computazionali ridotti. Proponiamo LongVideo-R1, un agente attivo, dotato di capacità di ragionamento e basato su un modello linguistico multimodale di grandi dimensioni (MLLM), progettato per una navigazione efficiente del contesto video, evitando la ridondanza della ricerca esaustiva. Il cuore di LongVideo-R1 risiede in un modulo di ragionamento che sfrutta indizi visivi di alto livello per inferire il clip video più informativo per l'elaborazione successiva. Durante l'inferenza, l'agente avvia l'attraversamento a partire da riepiloghi visivi di livello superiore e affina iterativamente il proprio focus, interrompendo immediatamente il processo di esplorazione non appena acquisisce conoscenze sufficienti per rispondere alla query. Per facilitare l'addestramento, estraiamo inizialmente didascalie video gerarchiche da CGBench, un corpus video con annotazioni di grounding, e guidiamo GPT-5 per generare 33K traiettorie di ragionamento a catena con strumento (chain-of-thought-with-tool) di alta qualità. L'agente LongVideo-R1 viene messo a punto (fine-tuned) a partire dal modello Qwen-3-8B attraverso un paradigma in due fasi: messa a punto supervisionata (SFT) seguita da apprendimento per rinforzo (RL), dove RL impiega una funzione di ricompensa specificamente progettata per massimizzare una navigazione selettiva ed efficiente dei clip. Esperimenti su molteplici benchmark di video lunghi convalidano l'efficacia di LongVideo-R1, che mostra un compromesso superiore tra accuratezza nelle domande e risposte (QA) ed efficienza. Tutti i dati curati e il codice sorgente sono forniti nel materiale supplementare e saranno resi pubblicamente disponibili. Codice e dati sono disponibili al seguente indirizzo: https://github.com/qiujihao19/LongVideo-R1

English

This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1

LongVideo-R1: Navigazione Intelligente per la Comprensione Economica di Video Lunghi

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Abstract

Support