VideoChat-R1: Aprimorando a Percepção Espaço-Temporal via Ajuste Fino por Reforço

Resumo

Os recentes avanços no aprendizado por reforço têm impulsionado significativamente as capacidades de raciocínio dos modelos de linguagem multimodal de grande escala (MLLMs). Embora abordagens como a Otimização de Política Relativa de Grupo (GRPO) e mecanismos de recompensa baseados em regras demonstrem potencial nos domínios de texto e imagem, sua aplicação na compreensão de vídeo ainda é limitada. Este artigo apresenta uma exploração sistemática do Ajuste Fino por Reforço (RFT) com GRPO para MLLMs de vídeo, visando aprimorar a percepção espaço-temporal enquanto mantém as capacidades gerais. Nossos experimentos revelam que o RFT é altamente eficiente em termos de dados para melhorias específicas de tarefas. Por meio do RFT multitarefa em objetivos de percepção espaço-temporal com amostras limitadas, desenvolvemos o VideoChat-R1, um poderoso MLLM de vídeo que alcança desempenho de ponta em tarefas de percepção espaço-temporal sem sacrificar a capacidade de chat, ao mesmo tempo que exibe habilidades emergentes de raciocínio espaço-temporal. Comparado ao Qwen2.5-VL-7B, o VideoChat-R1 aumenta o desempenho várias vezes em tarefas como localização temporal (+31,8) e rastreamento de objetos (+31,2). Além disso, ele melhora significativamente em benchmarks gerais de QA, como VideoMME (+0,9), MVBench (+1,0) e Perception Test (+0,9). Nossas descobertas destacam o potencial do RFT para o aprimoramento de tarefas especializadas em MLLMs de vídeo. Esperamos que nosso trabalho ofereça insights valiosos para futuras pesquisas em RL em MLLMs de vídeo.

English

Recent advancements in reinforcement learning have significantly advanced the reasoning capabilities of multimodal large language models (MLLMs). While approaches such as Group Relative Policy Optimization (GRPO) and rule-based reward mechanisms demonstrate promise in text and image domains, their application to video understanding remains limited. This paper presents a systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video MLLMs, aiming to enhance spatio-temporal perception while maintaining general capabilities. Our experiments reveal that RFT is highly data-efficient for task-specific improvements. Through multi-task RFT on spatio-temporal perception objectives with limited samples, we develop VideoChat-R1, a powerful video MLLM that achieves state-of-the-art performance on spatio-temporal perception tasks without sacrificing chat ability, while exhibiting emerging spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1 boosts performance several-fold in tasks like temporal grounding (+31.8) and object tracking (+31.2). Additionally, it significantly improves on general QA benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9). Our findings underscore the potential of RFT for specialized task enhancement of Video MLLMs. We hope our work offers valuable insights for future RL research in video MLLMs.

VideoChat-R1: Aprimorando a Percepção Espaço-Temporal via Ajuste Fino por Reforço

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Resumo

Summary

Support

Support