ChatPaper.aiChatPaper

RL schalen naar lange video's

Scaling RL to Long Videos

July 10, 2025
Auteurs: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
cs.AI

Samenvatting

We introduceren een full-stack framework dat redeneren in vision-language modellen (VLMs) opschaalt naar lange video's, waarbij gebruik wordt gemaakt van reinforcement learning. We gaan de unieke uitdagingen van redeneren over lange video's aan door drie kritische componenten te integreren: (1) een grootschalige dataset, LongVideo-Reason, bestaande uit 52K lange video QA-paren met hoogwaardige redeneerannotaties in diverse domeinen zoals sport, games en vlogs; (2) een tweefasig trainingspijplijn die VLMs uitbreidt met chain-of-thought supervised fine-tuning (CoT-SFT) en reinforcement learning (RL); en (3) een trainingsinfrastructuur voor RL op lange video's, genaamd Multi-modal Reinforcement Sequence Parallelism (MR-SP), die sequence parallelism en een op vLLM gebaseerde engine combineert die is afgestemd op lange video's, met gebruik van gecachte video-embeddings voor efficiënte rollout en prefilling. In experimenten behaalt LongVILA-R1-7B sterke prestaties op benchmarks voor lange video QA, zoals VideoMME. Het overtreft ook Video-R1-7B en evenaart zelfs Gemini-1.5-Pro op het gebied van temporeel redeneren, doel- en doeleindenredeneren, ruimtelijk redeneren en plotredeneren op onze LongVideo-Reason-eval benchmark. Opmerkelijk is dat ons MR-SP-systeem een versnelling tot 2,1x bereikt bij RL-training op lange video's. LongVILA-R1 toont consistente prestatieverbeteringen naarmate het aantal invoervideoframes toeneemt. LongVILA-R1 markeert een stevige stap in de richting van redeneren over lange video's in VLMs. Daarnaast maken we ons trainingssysteem publiekelijk beschikbaar, dat RL-training ondersteunt op verschillende modaliteiten (video, tekst en audio), verschillende modellen (VILA en Qwen series), en zelfs beeld- en videogeneratiemodellen. Op een enkele A100-node (8 GPU's) ondersteunt het RL-training op video's van een uur lang (bijvoorbeeld 3.600 frames / ongeveer 256k tokens).
English
We introduce a full-stack framework that scales up reasoning in vision-language models (VLMs) to long videos, leveraging reinforcement learning. We address the unique challenges of long video reasoning by integrating three critical components: (1) a large-scale dataset, LongVideo-Reason, comprising 52K long video QA pairs with high-quality reasoning annotations across diverse domains such as sports, games, and vlogs; (2) a two-stage training pipeline that extends VLMs with chain-of-thought supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a training infrastructure for long video RL, named Multi-modal Reinforcement Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a vLLM-based engine tailored for long video, using cached video embeddings for efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves strong performance on long video QA benchmarks such as VideoMME. It also outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to 2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent performance gains as the number of input video frames scales. LongVILA-R1 marks a firm step towards long video reasoning in VLMs. In addition, we release our training system for public availability that supports RL training on various modalities (video, text, and audio), various models (VILA and Qwen series), and even image and video generation models. On a single A100 node (8 GPUs), it supports RL training on hour-long videos (e.g., 3,600 frames / around 256k tokens).
PDF1573July 11, 2025