ChatPaper.aiChatPaper

LongVideo-R1: 低コスト長尺動画理解のためのスマートナビゲーション

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

February 24, 2026
著者: Jihao Qiu, Lingxi Xie, Xinyue Huo, Qi Tian, Qixiang Ye
cs.AI

要旨

本論文は、計算予算が限られた条件下での長尺ビデオ理解という、重要でありながら十分に検討されていない課題に取り組む。我々は、網羅的探索の冗長性を回避する効率的なビデオコンテキストナビゲーションのために設計された、推論能力を備えた能動的なマルチモーダル大規模言語モデル(MLLM)エージェント「LongVideo-R1」を提案する。LongVideo-R1の中核には、高次元的な視覚的手がかりを活用して、後続の処理にとって最も情報量の多いビデオクリップを推論する推論モジュールが存在する。推論時、エージェントはトップレベルの視覚的要約から走査を開始し、反復的に焦点を絞り込み、質問に答えるのに十分な知識を獲得すると即座に探索プロセスを停止する。訓練を促進するため、まずグラウンディング注釈付きビデオコーパスであるCGBenchから階層的なビデオキャプションを抽出し、GPT-5を誘導して33K件の高品質な思考連鎖ツール軌跡を生成する。LongVideo-R1エージェントは、Qwen-3-8Bモデルを基に、教師ありファインチューニング(SFT)と強化学習(RL)からなる2段階のパラダイムを通じてファインチューニングされる。RLでは、選択的かつ効率的なクリップナビゲーションを最大化するために特別に設計された報酬関数が採用される。複数の長尺ビデオベンチマークにおける実験により、本手法の有効性が検証され、QA精度と効率性の優れたトレードオフを実現することが示された。作成した全てのデータとソースコードは補足資料で提供され、公開予定である。コードとデータは以下で利用可能:https://github.com/qiujihao19/LongVideo-R1
English
This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1
PDF103March 7, 2026