ChatPaper.aiChatPaper

Mise à l'échelle de l'apprentissage par renforcement pour des vidéos longues

Scaling RL to Long Videos

July 10, 2025
papers.authors: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
cs.AI

papers.abstract

Nous présentons un framework complet qui permet de mettre à l'échelle le raisonnement dans les modèles vision-langage (VLMs) pour les vidéos longues, en exploitant l'apprentissage par renforcement. Nous abordons les défis uniques du raisonnement sur des vidéos longues en intégrant trois composants critiques : (1) un jeu de données à grande échelle, LongVideo-Reason, comprenant 52K paires de questions-réponses sur des vidéos longues avec des annotations de raisonnement de haute qualité couvrant divers domaines tels que le sport, les jeux et les vlogs ; (2) un pipeline d'entraînement en deux étapes qui étend les VLMs avec un fine-tuning supervisé en chaîne de pensée (CoT-SFT) et l'apprentissage par renforcement (RL) ; et (3) une infrastructure d'entraînement pour le RL sur des vidéos longues, nommée Multi-modal Reinforcement Sequence Parallelism (MR-SP), qui intègre le parallélisme de séquence et un moteur basé sur vLLM adapté aux vidéos longues, utilisant des embeddings vidéo mis en cache pour un déploiement et un pré-remplissage efficaces. Dans les expériences, LongVILA-R1-7B obtient des performances solides sur des benchmarks de questions-réponses sur des vidéos longues tels que VideoMME. Il surpasse également Video-R1-7B et rivalise même avec Gemini-1.5-Pro en termes de raisonnement temporel, de raisonnement sur les objectifs et les intentions, de raisonnement spatial et de raisonnement sur l'intrigue sur notre benchmark LongVideo-Reason-eval. Notamment, notre système MR-SP atteint une accélération allant jusqu'à 2,1x sur l'entraînement RL pour les vidéos longues. LongVILA-R1 démontre des gains de performance constants à mesure que le nombre de trames vidéo en entrée augmente. LongVILA-R1 marque une étape importante vers le raisonnement sur des vidéos longues dans les VLMs. De plus, nous rendons notre système d'entraînement disponible au public, prenant en charge l'entraînement RL sur diverses modalités (vidéo, texte et audio), divers modèles (séries VILA et Qwen), et même des modèles de génération d'images et de vidéos. Sur un seul nœud A100 (8 GPU), il prend en charge l'entraînement RL sur des vidéos d'une heure (par exemple, 3 600 trames / environ 256k tokens).
English
We introduce a full-stack framework that scales up reasoning in vision-language models (VLMs) to long videos, leveraging reinforcement learning. We address the unique challenges of long video reasoning by integrating three critical components: (1) a large-scale dataset, LongVideo-Reason, comprising 52K long video QA pairs with high-quality reasoning annotations across diverse domains such as sports, games, and vlogs; (2) a two-stage training pipeline that extends VLMs with chain-of-thought supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a training infrastructure for long video RL, named Multi-modal Reinforcement Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a vLLM-based engine tailored for long video, using cached video embeddings for efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves strong performance on long video QA benchmarks such as VideoMME. It also outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to 2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent performance gains as the number of input video frames scales. LongVILA-R1 marks a firm step towards long video reasoning in VLMs. In addition, we release our training system for public availability that supports RL training on various modalities (video, text, and audio), various models (VILA and Qwen series), and even image and video generation models. On a single A100 node (8 GPUs), it supports RL training on hour-long videos (e.g., 3,600 frames / around 256k tokens).
PDF983July 11, 2025