VIDEOP2R: 知覚から推論へのビデオ理解
VIDEOP2R: Video Understanding from Perception to Reasoning
November 14, 2025
著者: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan
cs.AI
要旨
強化学習ファインチューニング(RFT)は、教師ありファインチューニング(SFT)と強化学習(RL)から構成される2段階フレームワークであり、大規模言語モデル(LLM)の推論能力向上に有望な成果を示している。しかし、RFTを大規模映像言語モデル(VLM)に拡張することは依然として課題である。本論文では、知覚と推論を異なるプロセスとしてモデル化することで映像推論を強化する、新しいプロセス認識型映像RFTフレームワーク「VideoP2R」を提案する。SFT段階では、知覚と推論のための高品質なプロセス認識型連鎖思考(CoT)データセット「VideoP2R-CoT-162K」を生成する3ステップのパイプラインを開発した。RL段階では、知覚と推論に個別の報酬を付与する新しいプロセス認識型グループ相対方策最適化(PA-GRPO)アルゴリズムを導入する。大規模な実験により、VideoP2Rが7つの映像推論・理解ベンチマークのうち6つでState-of-the-Art(SotA)性能を達成することを実証した。アブレーション研究では、提案するプロセス認識モデリングとPA-GRPOの有効性が確認され、モデルの知覚出力が下流の推論タスクに対して情報的に十分であることが示された。
English
Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.