Skalierung von RL für lange Videos
Scaling RL to Long Videos
July 10, 2025
papers.authors: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
cs.AI
papers.abstract
Wir stellen ein Full-Stack-Framework vor, das das Reasoning in Vision-Language-Modellen (VLMs) auf lange Videos skaliert und dabei Reinforcement Learning nutzt. Wir adressieren die einzigartigen Herausforderungen des Reasonings bei langen Videos durch die Integration von drei kritischen Komponenten: (1) einen groß angelegten Datensatz, LongVideo-Reason, der 52K lange Video-QA-Paare mit hochwertigen Reasoning-Annotationen aus diversen Domänen wie Sport, Spielen und Vlogs umfasst; (2) eine zweistufige Trainingspipeline, die VLMs durch Chain-of-Thought-supervised Fine-Tuning (CoT-SFT) und Reinforcement Learning (RL) erweitert; und (3) eine Trainingsinfrastruktur für RL auf langen Videos, genannt Multi-modal Reinforcement Sequence Parallelism (MR-SP), die Sequence Parallelism und eine vLLM-basierte Engine speziell für lange Videos integriert und dabei zwischengespeicherte Video-Embeddings für effizientes Rollout und Prefilling nutzt. In Experimenten erzielt LongVILA-R1-7B starke Leistungen auf Benchmarks für lange Video-QAs wie VideoMME. Es übertrifft auch Video-R1-7B und erreicht sogar das Niveau von Gemini-1.5-Pro in den Bereichen temporales Reasoning, Ziel- und Zweck-Reasoning, räumliches Reasoning und Plot-Reasoning auf unserem LongVideo-Reason-eval-Benchmark. Bemerkenswerterweise erreicht unser MR-SP-System eine Beschleunigung von bis zu 2,1x beim RL-Training auf langen Videos. LongVILA-R1 zeigt konsistente Leistungssteigerungen, wenn die Anzahl der Eingabevideobilder skaliert wird. LongVILA-R1 markiert einen festen Schritt hin zum Reasoning auf langen Videos in VLMs. Zusätzlich veröffentlichen wir unser Trainingssystem für die Öffentlichkeit, das RL-Training auf verschiedenen Modalitäten (Video, Text und Audio), verschiedenen Modellen (VILA- und Qwen-Serien) und sogar Bild- und Videogenerierungsmodellen unterstützt. Auf einem einzelnen A100-Knoten (8 GPUs) unterstützt es RL-Training auf stundenlangen Videos (z.B. 3.600 Bilder / rund 256k Tokens).
English
We introduce a full-stack framework that scales up reasoning in
vision-language models (VLMs) to long videos, leveraging reinforcement
learning. We address the unique challenges of long video reasoning by
integrating three critical components: (1) a large-scale dataset,
LongVideo-Reason, comprising 52K long video QA pairs with high-quality
reasoning annotations across diverse domains such as sports, games, and vlogs;
(2) a two-stage training pipeline that extends VLMs with chain-of-thought
supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a
training infrastructure for long video RL, named Multi-modal Reinforcement
Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a
vLLM-based engine tailored for long video, using cached video embeddings for
efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves
strong performance on long video QA benchmarks such as VideoMME. It also
outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal
reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on
our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to
2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent
performance gains as the number of input video frames scales. LongVILA-R1 marks
a firm step towards long video reasoning in VLMs. In addition, we release our
training system for public availability that supports RL training on various
modalities (video, text, and audio), various models (VILA and Qwen series), and
even image and video generation models. On a single A100 node (8 GPUs), it
supports RL training on hour-long videos (e.g., 3,600 frames / around 256k
tokens).