Масштабирование обучения с подкреплением для длинных видео
Scaling RL to Long Videos
July 10, 2025
Авторы: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
cs.AI
Аннотация
Мы представляем полный стек фреймворка, который масштабирует рассуждения в моделях, работающих с визуальными и языковыми данными (VLMs), для длинных видео, используя обучение с подкреплением. Мы решаем уникальные задачи, связанные с рассуждениями на длинных видео, интегрируя три ключевых компонента: (1) крупномасштабный набор данных LongVideo-Reason, содержащий 52 тыс. пар "видео-вопрос-ответ" с высококачественными аннотациями для рассуждений в различных областях, таких как спорт, игры и влоги; (2) двухэтапный процесс обучения, который расширяет возможности VLMs с помощью тонкой настройки с использованием цепочки рассуждений (CoT-SFT) и обучения с подкреплением (RL); и (3) инфраструктуру для обучения на длинных видео с использованием RL, названную Multi-modal Reinforcement Sequence Parallelism (MR-SP), которая включает параллелизм последовательностей и движок на основе vLLM, оптимизированный для длинных видео, с использованием кэшированных видео-эмбеддингов для эффективного выполнения и предварительного заполнения. В экспериментах модель LongVILA-R1-7B демонстрирует высокую производительность на бенчмарках для длинных видео, таких как VideoMME. Она также превосходит Video-R1-7B и даже сопоставима с Gemini-1.5-Pro в задачах временного рассуждения, рассуждения о целях и назначении, пространственного рассуждения и сюжетного рассуждения на нашем бенчмарке LongVideo-Reason-eval. Примечательно, что наша система MR-SP обеспечивает ускорение обучения RL на длинных видео до 2,1 раза. LongVILA-R1 демонстрирует стабильный рост производительности с увеличением количества входных кадров видео. LongVILA-R1 представляет собой уверенный шаг в направлении рассуждений на длинных видео в VLMs. Кроме того, мы публикуем нашу систему обучения для общего доступа, которая поддерживает RL-обучение на различных модальностях (видео, текст и аудио), различных моделях (VILA и Qwen серии) и даже моделях генерации изображений и видео. На одном узле с A100 (8 GPU) она поддерживает RL-обучение на видео продолжительностью до часа (например, 3600 кадров / около 256 тыс. токенов).
English
We introduce a full-stack framework that scales up reasoning in
vision-language models (VLMs) to long videos, leveraging reinforcement
learning. We address the unique challenges of long video reasoning by
integrating three critical components: (1) a large-scale dataset,
LongVideo-Reason, comprising 52K long video QA pairs with high-quality
reasoning annotations across diverse domains such as sports, games, and vlogs;
(2) a two-stage training pipeline that extends VLMs with chain-of-thought
supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a
training infrastructure for long video RL, named Multi-modal Reinforcement
Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a
vLLM-based engine tailored for long video, using cached video embeddings for
efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves
strong performance on long video QA benchmarks such as VideoMME. It also
outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal
reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on
our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to
2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent
performance gains as the number of input video frames scales. LongVILA-R1 marks
a firm step towards long video reasoning in VLMs. In addition, we release our
training system for public availability that supports RL training on various
modalities (video, text, and audio), various models (VILA and Qwen series), and
even image and video generation models. On a single A100 node (8 GPUs), it
supports RL training on hour-long videos (e.g., 3,600 frames / around 256k
tokens).