LongVideo-R1: Slimme Navigatie voor Kostenefficiënt Begrip van Lange Video's

Samenvatting

Dit artikel behandelt de kritieke en onderbelichte uitdaging van het begrijpen van lange video's met een laag computationeel budget. Wij presenteren LongVideo-R1, een actieve, redeneringsvaardige multimodale large language model (MLLM)-agent, ontworpen voor efficiënte navigatie door videocontext, waarbij de redundantie van een uitputtende zoektocht wordt vermeden. De kern van LongVideo-R1 wordt gevormd door een redeneringsmodule die gebruikmaakt van hoogwaardige visuele aanwijzingen om de meest informatieve videoclip af te leiden voor verdere verwerking. Tijdens inferentie start de agent met het doorlopen van visuele topniveau-samenvattingen en verfijnt iteratief zijn focus, waarbij het verkenproces onmiddellijk stopt zodra voldoende kennis is verworven om de query te beantwoorden. Voor de training extraheren we eerst hiërarchische videobeschrijvingen uit CGBench, een videocorpus met groundingannotaties, en leiden GPT-5 aan om 33K hoogwaardige chain-of-thought-with-tool-trajecten te genereren. De LongVideo-R1-agent wordt gefinetuned op het Qwen-3-8B-model via een tweefasenparadigma: supervised fine-tuning (SFT) gevolgd door reinforcement learning (RL), waarbij RL een specifiek ontworpen beloningsfunctie gebruikt om selectieve en efficiënte clipnavigatie te maximaliseren. Experimenten op meerdere benchmarks voor lange video's valideren de effectiviteit van de methode, die een superieure afweging biedt tussen QA-nauwkeurigheid en efficiëntie. Alle samengestelde data en broncode zijn verstrekt in het supplementaire materiaal en zullen openbaar beschikbaar worden gesteld. Code en data zijn beschikbaar op: https://github.com/qiujihao19/LongVideo-R1

English

This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1

LongVideo-R1: Slimme Navigatie voor Kostenefficiënt Begrip van Lange Video's

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Samenvatting

Support