EasyVideoR1 : Apprentissage par renforcement simplifié pour la compréhension vidéo
EasyVideoR1: Easier RL for Video Understanding
April 18, 2026
Auteurs: Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang
cs.AI
Résumé
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) a démontré une efficacité remarquable pour améliorer les capacités de raisonnement des grands modèles linguistiques. Alors que les modèles évoluent vers des architectures multimodal natives, l'extension du RLVR à la compréhension vidéo devient de plus en plus importante mais reste largement inexplorée, en raison de la diversité des types de tâches vidéo, de la surcharge computationnelle liée au décodage et au prétraitement répétés d'entrées visuelles de haute dimension, et de la difficulté d'une évaluation reproductible face à de nombreux hyperparamètres sensibles. Les frameworks open-source existants pour l'entraînement par RL fournissent une infrastructure solide pour les scénarios texte et image, mais manquent d'optimisations systématiques adaptées à la modalité vidéo. Dans ce travail, nous présentons EasyVideoR1, un framework complet et efficace d'apprentissage par renforcement spécialement conçu pour entraîner de grands modèles vision-langage sur des tâches de compréhension vidéo. EasyVideoR1 apporte les contributions suivantes : (1) un pipeline complet d'entraînement RL pour la vidéo avec prétraitement hors ligne et mise en cache des tenseurs, éliminant le décodage vidéo redondant et permettant une amélioration du débit d'un facteur 1,47 ; (2) un système de récompense complet et conscient de la tâche, couvrant 11 types distincts de problèmes vidéo et image avec un routage unifié et une extension modulaire ; (3) un paradigme d'entraînement mixte sur données hors ligne et en ligne qui combine des trajectoires de haute qualité sélectionnées avec une exploration sur la politique, bénéficiant à l'apprentissage de tâches plus difficiles ; (4) un entraînement conjoint image-vidéo avec des budgets en pixels configurables indépendamment, permettant aux deux modalités de se renforcer mutuellement ; et (5) un framework d'évaluation asynchrone multi-benchmarks couvrant 22 benchmarks principaux de compréhension vidéo, avec une précision reproduite étroitement alignée sur les scores officiellement rapportés.
English
Reinforcement learning from verifiable rewards (RLVR) has demonstrated remarkable effectiveness in improving the reasoning capabilities of large language models. As models evolve into natively multimodal architectures, extending RLVR to video understanding becomes increasingly important yet remains largely unexplored, due to the diversity of video task types, the computational overhead of repeatedly decoding and preprocessing high-dimensional visual inputs, and the difficulty of reproducible evaluation across numerous sensitive hyperparameters. Existing open-source RL training frameworks provide solid infrastructure for text and image scenarios but lack systematic optimizations tailored for video modality. In this work, we present EasyVideoR1, a complete and efficient reinforcement learning framework specifically designed for training large vision-language models on video understanding tasks. EasyVideoR1 makes the following contributions: (1) a full video RL training pipeline with offline preprocessing and tensor caching that eliminates redundant video decoding and yields a 1.47 times throughput improvement; (2) a comprehensive, task-aware reward system covering 11 distinct video and image problem types with unified routing and modular extension; (3) a mixed offline-online data training paradigm that combines curated high-quality trajectories with on-policy exploration, benefiting the learning of more challenging tasks; (4) joint image-video training with independently configurable pixel budgets, allowing the two modalities to mutually reinforce each other; and (5) an asynchronous multi-benchmark evaluation framework covering 22 mainstream video understanding benchmarks, with reproduced accuracy closely aligned with officially reported scores.