VIDEOP2R: Compreensão de Vídeo da Percepção ao Raciocínio

Resumo

O ajuste fino por reforço (RFT), uma estrutura de duas fases que consiste em ajuste fino supervisionado (SFT) e aprendizagem por reforço (RL), tem mostrado resultados promissores na melhoria da capacidade de raciocínio de grandes modelos de linguagem (LLMs). No entanto, estender o RFT a grandes modelos de vídeo e linguagem (LVLMs) permanece um desafio. Propomos o VideoP2R, uma nova estrutura de RFT para vídeo consciente do processo que melhora o raciocínio em vídeo ao modelar a perceção e o raciocínio como processos distintos. Na fase SFT, desenvolvemos um *pipeline* de três etapas para gerar o VideoP2R-CoT-162K, um conjunto de dados de cadeia de pensamento (CoT) de alta qualidade e consciente do processo para perceção e raciocínio. Na fase RL, introduzimos um novo algoritmo de otimização de política relativa em grupo consciente do processo (PA-GRPO) que fornece recompensas separadas para a perceção e para o raciocínio. Experimentos extensivos mostram que o VideoP2R alcança desempenho de estado da arte (SotA) em seis de sete benchmarks de raciocínio e compreensão de vídeo. Estudos de ablação confirmam ainda a eficácia da nossa modelação consciente do processo e do PA-GRPO e demonstram que a saída de perceção do modelo é suficiente em informação para o raciocínio subsequente.

English

Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.

VIDEOP2R: Compreensão de Vídeo da Percepção ao Raciocínio

VIDEOP2R: Video Understanding from Perception to Reasoning

Resumo

Support