VIDEOP2R: Videobegrip van Waarneming naar Redenering

Samenvatting

Reinforcement fine-tuning (RFT), een raamwerk bestaande uit twee fasen, supervised fine-tuning (SFT) en reinforcement learning (RL), heeft veelbelovende resultaten getoond in het verbeteren van het redeneervermogen van grote taalmmodellen (LLM's). Het toepassen van RFT op grote video-taalmmodellen (LVLM's) blijft echter een uitdaging. Wij presenteren VideoP2R, een nieuw procesbewust video-RFT-raamwerk dat videoredenering verbetert door perceptie en redenering als afzonderlijke processen te modelleren. In de SFT-fase ontwikkelen we een driestappenpijplijn om VideoP2R-CoT-162K te genereren, een hoogwaardige, procesbewuste chain-of-thought (CoT)-dataset voor perceptie en redenering. In de RL-fase introduceren we een nieuw procesbewust groep-relatief beleidsoptimalisatie-algoritme (PA-GRPO) dat afzonderlijke beloningen biedt voor perceptie en redenering. Uitgebreide experimenten tonen aan dat VideoP2R state-of-the-art (SotA) prestaties bereikt op zes van zeven benchmarks voor videoredenering en -begrip. Ablatiestudies bevestigen verder de effectiviteit van onze procesbewuste modellering en PA-GRPO en tonen aan dat de perceptie-uitvoer van het model informatietoereikend is voor downstream redenering.

English

Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.

VIDEOP2R: Videobegrip van Waarneming naar Redenering

VIDEOP2R: Video Understanding from Perception to Reasoning

Samenvatting

Support