ChatPaper.aiChatPaper

VIDEOP2R: Videoverstehen von Wahrnehmung bis zum Schlussfolgern

VIDEOP2R: Video Understanding from Perception to Reasoning

November 14, 2025
papers.authors: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan
cs.AI

papers.abstract

Reinforcement Fine-Tuning (RFT), ein zweistufiges Framework bestehend aus Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL), hat vielversprechende Ergebnisse bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) gezeigt. Die Übertragung von RFT auf große Videosprachmodelle (LVLMs) bleibt jedoch eine Herausforderung. Wir stellen VideoP2R vor, ein neuartiges prozessorientiertes Video-RFT-Framework, das das Videoverständnis verbessert, indem es Wahrnehmung und logisches Denken als distinkte Prozesse modelliert. In der SFT-Phase entwickeln wir eine dreistufige Pipeline zur Generierung von VideoP2R-CoT-162K, einem hochwertigen, prozessorientierten Chain-of-Thought (CoT)-Datensatz für Wahrnehmung und logisches Denken. In der RL-Phase führen wir einen neuartigen prozessorientierten Group Relative Policy Optimization (PA-GRPO)-Algorithmus ein, der separate Belohnungen für Wahrnehmung und logisches Denken bereitstellt. Umfangreiche Experimente zeigen, dass VideoP2R auf sechs von sieben Benchmarks für Videoverständnis und logisches Denken state-of-the-art (SotA) Leistung erzielt. Ablationsstudien bestätigen weiterhin die Wirksamkeit unserer prozessorientierten Modellierung und von PA-GRPO und zeigen, dass die Wahrnehmungsausgabe des Modells informationsausreichend für nachgelagertes logisches Denken ist.
English
Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.
PDF1084December 1, 2025