ChatPaper.aiChatPaper

VIDEOP2R: 인지에서 추론에 이르는 비디오 이해

VIDEOP2R: Video Understanding from Perception to Reasoning

November 14, 2025
저자: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan
cs.AI

초록

강화 미세조정(RFT)은 지도 미세조정(SFT)과 강화 학습(RL)으로 구성된 2단계 프레임워크로, 대규모 언어 모델(LLM)의 추론 능력 향상에 유망한 결과를 보여왔습니다. 그러나 RFT를 대규모 비디오 언어 모델(LVLM)로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 인지와 추론을 별개의 과정으로 모델링하여 비디오 추론을 향상시키는 새로운 과정 인식 비디오 RFT 프레임워크인 VideoP2R을 제안합니다. SFT 단계에서는 인지와 추론을 위한 고품질의 과정 인식 사고 연쇄(CoT) 데이터셋인 VideoP2R-CoT-162K를 생성하는 3단계 파이프라인을 개발했습니다. RL 단계에서는 인지와 추론에 대해 별도의 보상을 제공하는 새로운 과정 인식 그룹 상대 정책 최적화(PA-GRPO) 알고리즘을 도입했습니다. 광범위한 실험을 통해 VideoP2R이 7개의 비디오 추론 및 이해 벤치마크 중 6개에서 최첨단(SotA) 성능을 달성함을 확인했습니다. 추가로 진행한 제어 실험(ablation study)을 통해 우리의 과정 인식 모델링과 PA-GRPO의 효과성이 검증되었으며, 모델의 인지 출력이 하류 추론(downstream reasoning)에 필요한 정보를 충분히 제공함을 입증했습니다.
English
Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.
PDF1084December 1, 2025