Scalabilità del RL per Video Lunghi
Scaling RL to Long Videos
July 10, 2025
Autori: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
cs.AI
Abstract
Introduciamo un framework full-stack che scala il ragionamento nei modelli visione-linguaggio (VLMs) per video lunghi, sfruttando il reinforcement learning. Affrontiamo le sfide uniche del ragionamento su video lunghi integrando tre componenti critiche: (1) un dataset su larga scala, LongVideo-Reason, composto da 52K coppie QA di video lunghi con annotazioni di ragionamento di alta qualità in diversi domini come sport, giochi e vlog; (2) una pipeline di addestramento in due fasi che estende i VLMs con fine-tuning supervisionato a catena di pensiero (CoT-SFT) e reinforcement learning (RL); e (3) un'infrastruttura di addestramento per RL su video lunghi, denominata Multi-modal Reinforcement Sequence Parallelism (MR-SP), che incorpora il parallelismo di sequenza e un motore basato su vLLM ottimizzato per video lunghi, utilizzando embedding video memorizzati per rollout e prefilling efficienti. Negli esperimenti, LongVILA-R1-7B ottiene prestazioni solide su benchmark QA di video lunghi come VideoMME. Supera inoltre Video-R1-7B e raggiunge persino i livelli di Gemini-1.5-Pro in ragionamento temporale, ragionamento su obiettivi e scopi, ragionamento spaziale e ragionamento sulla trama nel nostro benchmark LongVideo-Reason-eval. In particolare, il nostro sistema MR-SP raggiunge un'accelerazione fino a 2.1x nell'addestramento RL su video lunghi. LongVILA-R1 dimostra guadagni di prestazioni consistenti all'aumentare del numero di frame video in input. LongVILA-R1 rappresenta un passo significativo verso il ragionamento su video lunghi nei VLMs. Inoltre, rilasciamo il nostro sistema di addestramento per la disponibilità pubblica, che supporta l'addestramento RL su varie modalità (video, testo e audio), vari modelli (serie VILA e Qwen) e persino modelli di generazione di immagini e video. Su un singolo nodo A100 (8 GPU), supporta l'addestramento RL su video della durata di un'ora (ad esempio, 3.600 frame / circa 256k token).
English
We introduce a full-stack framework that scales up reasoning in
vision-language models (VLMs) to long videos, leveraging reinforcement
learning. We address the unique challenges of long video reasoning by
integrating three critical components: (1) a large-scale dataset,
LongVideo-Reason, comprising 52K long video QA pairs with high-quality
reasoning annotations across diverse domains such as sports, games, and vlogs;
(2) a two-stage training pipeline that extends VLMs with chain-of-thought
supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a
training infrastructure for long video RL, named Multi-modal Reinforcement
Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a
vLLM-based engine tailored for long video, using cached video embeddings for
efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves
strong performance on long video QA benchmarks such as VideoMME. It also
outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal
reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on
our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to
2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent
performance gains as the number of input video frames scales. LongVILA-R1 marks
a firm step towards long video reasoning in VLMs. In addition, we release our
training system for public availability that supports RL training on various
modalities (video, text, and audio), various models (VILA and Qwen series), and
even image and video generation models. On a single A100 node (8 GPUs), it
supports RL training on hour-long videos (e.g., 3,600 frames / around 256k
tokens).