Escalando el Aprendizaje por Refuerzo a Videos Largos
Scaling RL to Long Videos
July 10, 2025
Autores: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
cs.AI
Resumen
Presentamos un marco de trabajo integral que escala el razonamiento en modelos de visión y lenguaje (VLMs) para videos largos, aprovechando el aprendizaje por refuerzo. Abordamos los desafíos únicos del razonamiento en videos largos mediante la integración de tres componentes críticos: (1) un conjunto de datos a gran escala, LongVideo-Reason, que comprende 52K pares de preguntas y respuestas sobre videos largos con anotaciones de razonamiento de alta calidad en diversos dominios como deportes, juegos y vlogs; (2) una canalización de entrenamiento en dos etapas que extiende los VLMs con ajuste fino supervisado de cadena de pensamiento (CoT-SFT) y aprendizaje por refuerzo (RL); y (3) una infraestructura de entrenamiento para RL en videos largos, denominada Paralelismo de Secuencia de Refuerzo Multimodal (MR-SP), que incorpora paralelismo de secuencia y un motor basado en vLLM optimizado para videos largos, utilizando incrustaciones de video en caché para un despliegue y prefilling eficientes. En los experimentos, LongVILA-R1-7B logra un rendimiento sólido en benchmarks de preguntas y respuestas sobre videos largos como VideoMME. También supera a Video-R1-7B e incluso iguala a Gemini-1.5-Pro en razonamiento temporal, razonamiento de objetivos y propósitos, razonamiento espacial y razonamiento de trama en nuestro benchmark LongVideo-Reason-eval. Notablemente, nuestro sistema MR-SP alcanza una aceleración de hasta 2.1x en el entrenamiento de RL para videos largos. LongVILA-R1 demuestra ganancias consistentes en el rendimiento a medida que aumenta el número de fotogramas de video de entrada. LongVILA-R1 marca un paso firme hacia el razonamiento en videos largos en VLMs. Además, liberamos nuestro sistema de entrenamiento para disponibilidad pública, que soporta entrenamiento de RL en varias modalidades (video, texto y audio), varios modelos (series VILA y Qwen), e incluso modelos de generación de imágenes y videos. En un solo nodo A100 (8 GPUs), soporta entrenamiento de RL en videos de una hora de duración (por ejemplo, 3,600 fotogramas / alrededor de 256k tokens).
English
We introduce a full-stack framework that scales up reasoning in
vision-language models (VLMs) to long videos, leveraging reinforcement
learning. We address the unique challenges of long video reasoning by
integrating three critical components: (1) a large-scale dataset,
LongVideo-Reason, comprising 52K long video QA pairs with high-quality
reasoning annotations across diverse domains such as sports, games, and vlogs;
(2) a two-stage training pipeline that extends VLMs with chain-of-thought
supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a
training infrastructure for long video RL, named Multi-modal Reinforcement
Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a
vLLM-based engine tailored for long video, using cached video embeddings for
efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves
strong performance on long video QA benchmarks such as VideoMME. It also
outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal
reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on
our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to
2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent
performance gains as the number of input video frames scales. LongVILA-R1 marks
a firm step towards long video reasoning in VLMs. In addition, we release our
training system for public availability that supports RL training on various
modalities (video, text, and audio), various models (VILA and Qwen series), and
even image and video generation models. On a single A100 node (8 GPUs), it
supports RL training on hour-long videos (e.g., 3,600 frames / around 256k
tokens).