Escalonamento de RL para Vídeos Longos
Scaling RL to Long Videos
July 10, 2025
Autores: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
cs.AI
Resumo
Apresentamos um framework full-stack que amplia a capacidade de raciocínio em modelos de visão e linguagem (VLMs) para vídeos longos, utilizando aprendizado por reforço. Abordamos os desafios únicos do raciocínio em vídeos longos ao integrar três componentes críticos: (1) um conjunto de dados em larga escala, LongVideo-Reason, composto por 52K pares de perguntas e respostas de vídeos longos com anotações de raciocínio de alta qualidade em diversos domínios, como esportes, jogos e vlogs; (2) um pipeline de treinamento em duas etapas que estende os VLMs com ajuste fino supervisionado de cadeia de pensamento (CoT-SFT) e aprendizado por reforço (RL); e (3) uma infraestrutura de treinamento para RL em vídeos longos, denominada Multi-modal Reinforcement Sequence Parallelism (MR-SP), que incorpora paralelismo de sequência e um mecanismo baseado em vLLM adaptado para vídeos longos, utilizando embeddings de vídeo em cache para rollouts e preenchimentos eficientes. Nos experimentos, o LongVILA-R1-7B alcança um desempenho robusto em benchmarks de perguntas e respostas de vídeos longos, como o VideoMME. Ele também supera o Video-R1-7B e até iguala o Gemini-1.5-Pro em raciocínio temporal, raciocínio de objetivo e propósito, raciocínio espacial e raciocínio de enredo em nosso benchmark LongVideo-Reason-eval. Notavelmente, nosso sistema MR-SP alcança uma aceleração de até 2,1x no treinamento de RL para vídeos longos. O LongVILA-R1 demonstra ganhos consistentes de desempenho à medida que o número de quadros de vídeo de entrada aumenta. O LongVILA-R1 representa um passo firme em direção ao raciocínio em vídeos longos em VLMs. Além disso, disponibilizamos publicamente nosso sistema de treinamento, que suporta treinamento de RL em várias modalidades (vídeo, texto e áudio), vários modelos (série VILA e Qwen) e até modelos de geração de imagens e vídeos. Em um único nó A100 (8 GPUs), ele suporta treinamento de RL em vídeos de uma hora de duração (por exemplo, 3.600 quadros / cerca de 256k tokens).
English
We introduce a full-stack framework that scales up reasoning in
vision-language models (VLMs) to long videos, leveraging reinforcement
learning. We address the unique challenges of long video reasoning by
integrating three critical components: (1) a large-scale dataset,
LongVideo-Reason, comprising 52K long video QA pairs with high-quality
reasoning annotations across diverse domains such as sports, games, and vlogs;
(2) a two-stage training pipeline that extends VLMs with chain-of-thought
supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a
training infrastructure for long video RL, named Multi-modal Reinforcement
Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a
vLLM-based engine tailored for long video, using cached video embeddings for
efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves
strong performance on long video QA benchmarks such as VideoMME. It also
outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal
reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on
our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to
2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent
performance gains as the number of input video frames scales. LongVILA-R1 marks
a firm step towards long video reasoning in VLMs. In addition, we release our
training system for public availability that supports RL training on various
modalities (video, text, and audio), various models (VILA and Qwen series), and
even image and video generation models. On a single A100 node (8 GPUs), it
supports RL training on hour-long videos (e.g., 3,600 frames / around 256k
tokens).