LongVideo-R1: Intelligente Navigation für kostengünstiges Verständnis langer Videos

Zusammenfassung

Diese Arbeit befasst sich mit der kritischen und bislang wenig erforschten Herausforderung des Verständnisses langer Videos mit geringem Rechenaufwand. Wir stellen LongVideo-R1 vor, einen aktiven, mit Reasoning-Fähigkeiten ausgestatteten multimodalen Large Language Model (MLLM)-Agenten, der für eine effiziente Navigation im Videokontext entwickelt wurde und die Redundanz einer exhaustiven Suche vermeidet. Im Kern von LongVideo-R1 liegt ein Reasoning-Modul, das hochlevelige visuelle Hinweise nutzt, um den informativsten Videoclip für die weitere Verarbeitung abzuleiten. Während der Inferenz initiiert der Agent den Durchlauf von Top-Level-Visualisierungszusammenfassungen und verfeinert seinen Fokus iterativ, wobei der Erkundungsprozess sofort angehalten wird, sobald ausreichend Wissen zur Beantwortung der Anfrage erlangt wurde. Um das Training zu ermöglichen, extrahieren wir zunächst hierarchische Videobeschriftungen aus CGBench, einem Videokorpus mit Grounding-Annotationen, und lenken GPT-5 an, 33.000 hochwertige Chain-of-Thought-with-Tool-Trajektorien zu generieren. Der LongVideo-R1-Agent wird auf dem Qwen-3-8B-Modell durch ein zweistufiges Paradigma feinabgestimmt: überwachtes Feintuning (SFT), gefolgt von bestärkendem Lernen (RL), wobei RL eine speziell entwickelte Belohnungsfunktion einsetzt, um eine selektive und effiziente Clip-Navigation zu maximieren. Experimente auf mehreren Benchmarks für lange Videos validieren die Wirksamkeit des Ansatzes, der eine überlegene Balance zwischen QA-Genauigkeit und Effizienz erreicht. Alle aufbereiteten Daten und der Quellcode sind im ergänzenden Material enthalten und werden öffentlich zugänglich gemacht. Code und Daten sind verfügbar unter: https://github.com/qiujihao19/LongVideo-R1

English

This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1

LongVideo-R1: Intelligente Navigation für kostengünstiges Verständnis langer Videos

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Zusammenfassung

Support