ChatPaper.aiChatPaper

VIDEOP2R: Comprensione Video dalla Percezione al Ragionamento

VIDEOP2R: Video Understanding from Perception to Reasoning

November 14, 2025
Autori: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan
cs.AI

Abstract

Il fine-tuning con rinforzo (RFT), un framework a due stadi composto da fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL), ha mostrato risultati promettenti nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, estendere l'RFT ai grandi modelli linguistici video (LVLM) rimane una sfida. Proponiamo VideoP2R, un innovativo framework RFT video consapevole del processo che migliora il ragionamento video modellando la percezione e il ragionamento come processi distinti. Nella fase SFT, sviluppiamo una pipeline in tre fasi per generare VideoP2R-CoT-162K, un dataset di catena del pensiero (CoT) di alta qualità e consapevole del processo, per la percezione e il ragionamento. Nella fase RL, introduciamo un nuovo algoritmo di ottimizzazione della politica relativa di gruppo consapevole del processo (PA-GRPO) che fornisce ricompense separate per la percezione e il ragionamento. Esperimenti estensivi mostrano che VideoP2R raggiunge prestazioni all'avanguardia (SotA) in sei su sette benchmark di ragionamento e comprensione video. Studi di ablazione confermano ulteriormente l'efficacia della nostra modellazione consapevole del processo e del PA-GRPO e dimostrano che l'output percettivo del modello è sufficientemente informativo per il ragionamento a valle.
English
Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.
PDF1084December 1, 2025