Mise à l'échelle de l'apprentissage par renforcement pour des vidéos longues
Scaling RL to Long Videos
July 10, 2025
papers.authors: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
cs.AI
papers.abstract
Nous présentons un framework complet qui permet de mettre à l'échelle le raisonnement dans les modèles vision-langage (VLMs) pour les vidéos longues, en exploitant l'apprentissage par renforcement. Nous abordons les défis uniques du raisonnement sur des vidéos longues en intégrant trois composants critiques : (1) un jeu de données à grande échelle, LongVideo-Reason, comprenant 52K paires de questions-réponses sur des vidéos longues avec des annotations de raisonnement de haute qualité couvrant divers domaines tels que le sport, les jeux et les vlogs ; (2) un pipeline d'entraînement en deux étapes qui étend les VLMs avec un fine-tuning supervisé en chaîne de pensée (CoT-SFT) et l'apprentissage par renforcement (RL) ; et (3) une infrastructure d'entraînement pour le RL sur des vidéos longues, nommée Multi-modal Reinforcement Sequence Parallelism (MR-SP), qui intègre le parallélisme de séquence et un moteur basé sur vLLM adapté aux vidéos longues, utilisant des embeddings vidéo mis en cache pour un déploiement et un pré-remplissage efficaces. Dans les expériences, LongVILA-R1-7B obtient des performances solides sur des benchmarks de questions-réponses sur des vidéos longues tels que VideoMME. Il surpasse également Video-R1-7B et rivalise même avec Gemini-1.5-Pro en termes de raisonnement temporel, de raisonnement sur les objectifs et les intentions, de raisonnement spatial et de raisonnement sur l'intrigue sur notre benchmark LongVideo-Reason-eval. Notamment, notre système MR-SP atteint une accélération allant jusqu'à 2,1x sur l'entraînement RL pour les vidéos longues. LongVILA-R1 démontre des gains de performance constants à mesure que le nombre de trames vidéo en entrée augmente. LongVILA-R1 marque une étape importante vers le raisonnement sur des vidéos longues dans les VLMs. De plus, nous rendons notre système d'entraînement disponible au public, prenant en charge l'entraînement RL sur diverses modalités (vidéo, texte et audio), divers modèles (séries VILA et Qwen), et même des modèles de génération d'images et de vidéos. Sur un seul nœud A100 (8 GPU), il prend en charge l'entraînement RL sur des vidéos d'une heure (par exemple, 3 600 trames / environ 256k tokens).
English
We introduce a full-stack framework that scales up reasoning in
vision-language models (VLMs) to long videos, leveraging reinforcement
learning. We address the unique challenges of long video reasoning by
integrating three critical components: (1) a large-scale dataset,
LongVideo-Reason, comprising 52K long video QA pairs with high-quality
reasoning annotations across diverse domains such as sports, games, and vlogs;
(2) a two-stage training pipeline that extends VLMs with chain-of-thought
supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a
training infrastructure for long video RL, named Multi-modal Reinforcement
Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a
vLLM-based engine tailored for long video, using cached video embeddings for
efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves
strong performance on long video QA benchmarks such as VideoMME. It also
outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal
reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on
our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to
2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent
performance gains as the number of input video frames scales. LongVILA-R1 marks
a firm step towards long video reasoning in VLMs. In addition, we release our
training system for public availability that supports RL training on various
modalities (video, text, and audio), various models (VILA and Qwen series), and
even image and video generation models. On a single A100 node (8 GPUs), it
supports RL training on hour-long videos (e.g., 3,600 frames / around 256k
tokens).