VideoChat-R1: Mejora de la Percepción Espacio-Temporal mediante Ajuste Fino por Refuerzo
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
April 9, 2025
Autores: Xinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang
cs.AI
Resumen
Los avances recientes en el aprendizaje por refuerzo han mejorado significativamente las capacidades de razonamiento de los modelos de lenguaje multimodal de gran escala (MLLMs). Aunque enfoques como la Optimización de Políticas Relativas de Grupo (GRPO) y los mecanismos de recompensa basados en reglas muestran un gran potencial en los dominios de texto e imagen, su aplicación en la comprensión de videos sigue siendo limitada. Este artículo presenta una exploración sistemática del Ajuste Fino por Refuerzo (RFT) con GRPO para MLLMs de video, con el objetivo de mejorar la percepción espacio-temporal mientras se mantienen las capacidades generales. Nuestros experimentos revelan que el RFT es altamente eficiente en términos de datos para mejoras específicas de tareas. A través del RFT multitarea en objetivos de percepción espacio-temporal con muestras limitadas, desarrollamos VideoChat-R1, un potente MLLM de video que logra un rendimiento de vanguardia en tareas de percepción espacio-temporal sin sacrificar la capacidad de chat, al mismo tiempo que exhibe habilidades emergentes de razonamiento espacio-temporal. En comparación con Qwen2.5-VL-7B, VideoChat-R1 aumenta el rendimiento varias veces en tareas como la localización temporal (+31.8) y el seguimiento de objetos (+31.2). Además, mejora significativamente en benchmarks generales de preguntas y respuestas como VideoMME (+0.9), MVBench (+1.0) y Perception Test (+0.9). Nuestros hallazgos subrayan el potencial del RFT para la mejora de tareas especializadas en MLLMs de video. Esperamos que nuestro trabajo ofrezca valiosas ideas para futuras investigaciones en aprendizaje por refuerzo en MLLMs de video.
English
Recent advancements in reinforcement learning have significantly advanced the
reasoning capabilities of multimodal large language models (MLLMs). While
approaches such as Group Relative Policy Optimization (GRPO) and rule-based
reward mechanisms demonstrate promise in text and image domains, their
application to video understanding remains limited. This paper presents a
systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video
MLLMs, aiming to enhance spatio-temporal perception while maintaining general
capabilities. Our experiments reveal that RFT is highly data-efficient for
task-specific improvements. Through multi-task RFT on spatio-temporal
perception objectives with limited samples, we develop VideoChat-R1, a powerful
video MLLM that achieves state-of-the-art performance on spatio-temporal
perception tasks without sacrificing chat ability, while exhibiting emerging
spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1
boosts performance several-fold in tasks like temporal grounding (+31.8) and
object tracking (+31.2). Additionally, it significantly improves on general QA
benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9).
Our findings underscore the potential of RFT for specialized task enhancement
of Video MLLMs. We hope our work offers valuable insights for future RL
research in video MLLMs.