ChatPaper.aiChatPaper

VIDEOP2R: Comprensión de Vídeos desde la Percepción hasta el Razonamiento

VIDEOP2R: Video Understanding from Perception to Reasoning

November 14, 2025
Autores: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan
cs.AI

Resumen

El ajuste fino por refuerzo (RFT), un marco de trabajo de dos etapas que consiste en el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL), ha mostrado resultados prometedores para mejorar la capacidad de razonamiento de los grandes modelos de lenguaje (LLMs). Sin embargo, extender el RFT a los grandes modelos de video y lenguaje (LVLMs) sigue siendo un desafío. Proponemos VideoP2R, un novedoso marco de RFT para video consciente del proceso que mejora el razonamiento en video al modelar la percepción y el razonamiento como procesos distintos. En la etapa de SFT, desarrollamos un pipeline de tres pasos para generar VideoP2R-CoT-162K, un conjunto de datos de cadena de pensamiento (CoT) de alta calidad y consciente del proceso para la percepción y el razonamiento. En la etapa de RL, presentamos un novedoso algoritmo de optimización de políticas relativas por grupos consciente del proceso (PA-GRPO) que proporciona recompensas separadas para la percepción y el razonamiento. Experimentos exhaustivos muestran que VideoP2R logra un rendimiento de vanguardia (SotA) en seis de siete benchmarks de razonamiento y comprensión de video. Estudios de ablación confirman además la efectividad de nuestro modelado consciente del proceso y del PA-GRPO, y demuestran que la salida de percepción del modelo contiene información suficiente para el razonamiento subsiguiente.
English
Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.
PDF1084December 1, 2025