ChatPaper.aiChatPaper

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

VIDEOP2R: Video Understanding from Perception to Reasoning

November 14, 2025
papers.authors: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan
cs.AI

papers.abstract

Le réglage fin par renforcement (RFT), un cadre en deux étapes comprenant le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL), a montré des résultats prometteurs pour améliorer la capacité de raisonnement des grands modèles de langage (LLM). Cependant, l'extension du RFT aux grands modèles vidéo-langage (LVLM) reste un défi. Nous proposons VideoP2R, un nouveau cadre de RFT vidéo conscient des processus qui améliore le raisonnement vidéo en modélisant la perception et le raisonnement comme des processus distincts. Lors de l'étape SFT, nous développons un pipeline en trois étapes pour générer VideoP2R-CoT-162K, un jeu de données de chaîne de pensée (CoT) de haute qualité et conscient des processus pour la perception et le raisonnement. Lors de l'étape RL, nous introduisons un nouvel algorithme d'optimisation de politique relative par groupe conscient des processus (PA-GRPO) qui fournit des récompenses distinctes pour la perception et le raisonnement. Des expériences approfondies montrent que VideoP2R atteint des performances à la pointe de l'état de l'art (SotA) sur six des sept benchmarks de raisonnement et de compréhension vidéo. Des études d'ablation confirment en outre l'efficacité de notre modélisation consciente des processus et du PA-GRPO, et démontrent que la sortie de perception du modèle est suffisamment informative pour le raisonnement en aval.
English
Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.
PDF1084December 1, 2025