VideoChat-R1: Aprimorando a Percepção Espaço-Temporal via Ajuste Fino por Reforço
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
April 9, 2025
Autores: Xinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang
cs.AI
Resumo
Os recentes avanços no aprendizado por reforço têm impulsionado significativamente as capacidades de raciocínio dos modelos de linguagem multimodal de grande escala (MLLMs). Embora abordagens como a Otimização de Política Relativa de Grupo (GRPO) e mecanismos de recompensa baseados em regras demonstrem potencial nos domínios de texto e imagem, sua aplicação na compreensão de vídeo ainda é limitada. Este artigo apresenta uma exploração sistemática do Ajuste Fino por Reforço (RFT) com GRPO para MLLMs de vídeo, visando aprimorar a percepção espaço-temporal enquanto mantém as capacidades gerais. Nossos experimentos revelam que o RFT é altamente eficiente em termos de dados para melhorias específicas de tarefas. Por meio do RFT multitarefa em objetivos de percepção espaço-temporal com amostras limitadas, desenvolvemos o VideoChat-R1, um poderoso MLLM de vídeo que alcança desempenho de ponta em tarefas de percepção espaço-temporal sem sacrificar a capacidade de chat, ao mesmo tempo que exibe habilidades emergentes de raciocínio espaço-temporal. Comparado ao Qwen2.5-VL-7B, o VideoChat-R1 aumenta o desempenho várias vezes em tarefas como localização temporal (+31,8) e rastreamento de objetos (+31,2). Além disso, ele melhora significativamente em benchmarks gerais de QA, como VideoMME (+0,9), MVBench (+1,0) e Perception Test (+0,9). Nossas descobertas destacam o potencial do RFT para o aprimoramento de tarefas especializadas em MLLMs de vídeo. Esperamos que nosso trabalho ofereça insights valiosos para futuras pesquisas em RL em MLLMs de vídeo.
English
Recent advancements in reinforcement learning have significantly advanced the
reasoning capabilities of multimodal large language models (MLLMs). While
approaches such as Group Relative Policy Optimization (GRPO) and rule-based
reward mechanisms demonstrate promise in text and image domains, their
application to video understanding remains limited. This paper presents a
systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video
MLLMs, aiming to enhance spatio-temporal perception while maintaining general
capabilities. Our experiments reveal that RFT is highly data-efficient for
task-specific improvements. Through multi-task RFT on spatio-temporal
perception objectives with limited samples, we develop VideoChat-R1, a powerful
video MLLM that achieves state-of-the-art performance on spatio-temporal
perception tasks without sacrificing chat ability, while exhibiting emerging
spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1
boosts performance several-fold in tasks like temporal grounding (+31.8) and
object tracking (+31.2). Additionally, it significantly improves on general QA
benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9).
Our findings underscore the potential of RFT for specialized task enhancement
of Video MLLMs. We hope our work offers valuable insights for future RL
research in video MLLMs.Summary
AI-Generated Summary