LongVideo-R1: Интеллектуальная навигация для анализа длинных видео с низкими затратами

Аннотация

В данной статье рассматривается важная и малоизученная проблема понимания длинных видео при ограниченных вычислительных ресурсах. Мы предлагаем LongVideo-R1 — активного мультимодального агента на основе большой языковой модели (MLLM), оснащенного модулем логического вывода, предназначенного для эффективной навигации по видеоконтексту без избыточного полного перебора. В основе LongVideo-R1 лежит модуль рассуждений, который использует визуальные подсказки высокого уровня для определения наиболее информативного фрагмента видео для последующей обработки. На этапе вывода агент начинает обход с визуальных суммаризаций верхнего уровня и итеративно уточняет фокус внимания, немедленно прекращая процесс исследования при получении достаточных знаний для ответа на запрос. Для обучения мы сначала извлекаем иерархические описания видео из CGBench — видеокорпуса с аннотациями привязки к контексту — и используем GPT-5 для генерации 33 тысяч высококачественных траекторий типа «рассуждение-с-инструментом» (chain-of-thought-with-tool). Агент LongVideo-R1 дообучается на основе модели Qwen-3-8B по двухэтапной парадигме: контролируемое тонкое настраивание (SFT) с последующим обучением с подкреплением (RL), где в RL применяется специально разработанная функция вознаграждения для максимизации избирательной и эффективной навигации по клипам. Эксперименты на нескольких наборах данных для длинных видео подтверждают эффективность предложенного метода, который демонстрирует превосходный баланс между точностью ответов на вопросы и эффективностью. Все подготовленные данные и исходный код представлены в дополнительных материалах и будут общедоступны. Код и данные доступны по адресу: https://github.com/qiujihao19/LongVideo-R1.

English

This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1

LongVideo-R1: Интеллектуальная навигация для анализа длинных видео с низкими затратами

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Аннотация

Support