VIDEOP2R: Видеопонимание от восприятия к рассуждению
VIDEOP2R: Video Understanding from Perception to Reasoning
November 14, 2025
Авторы: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan
cs.AI
Аннотация
Метод подстройки с подкреплением (RFT), представляющий собой двухэтапную структуру, включающую контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL), продемонстрировал перспективные результаты в улучшении способности крупных языковых моделей (LLM) к рассуждениям. Однако применение RFT к крупным видео-языковым моделям (LVLM) остается сложной задачей. Мы предлагаем VideoP2R — новую процессно-ориентированную RFT-структуру для видео, которая улучшает видеорассуждения за счет моделирования восприятия и рассуждений как отдельных процессов. На этапе SFT мы разработали трехшаговый конвейер для создания VideoP2R-CoT-162K — высококачественного, процессно-ориентированного набора данных цепочек рассуждений (CoT) для восприятия и рассуждений. На этапе RL мы представляем новый процессно-ориентированный алгоритм оптимизации групповой относительной политики (PA-GRPO), который предоставляет отдельные вознаграждения за восприятие и рассуждения. Многочисленные эксперименты показывают, что VideoP2R достигает наилучших результатов (state-of-the-art, SotA) в шести из семи тестов для оценки видеорассуждений и понимания видео. Абляционные исследования дополнительно подтверждают эффективность нашего процессно-ориентированного моделирования и алгоритма PA-GRPO и демонстрируют, что выходные данные восприятия модели содержат достаточную информацию для последующих рассуждений.
English
Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.