EasyVideoR1: 映像理解のためのより簡単な強化学習
EasyVideoR1: Easier RL for Video Understanding
April 18, 2026
著者: Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang
cs.AI
要旨
検証可能な報酬からの強化学習(RLVR)は、大規模言語モデルの推論能力を向上させる上で顕著な効果を実証してきた。モデルがネイティブにマルチモーダルなアーキテクチャへ進化する中、RLVRを映像理解に拡張することの重要性が高まっているが、以下の理由からほとんど未開拓の領域である。すなわち、映像タスクの種類の多様性、高次元の視覚入力を繰り返しデコード・前処理する計算コスト、そして多数の敏感なハイパーパラメータにわたる再現性のある評価の難しさが障壁となっている。既存のオープンソースRLトレーニングフレームワークはテキストおよび画像シナリオに対する堅牢なインフラを提供するが、映像モダリティに特化した体系的な最適化を欠いている。本研究では、映像理解タスクにおいて大規模視覚言語モデルを訓練するために特別に設計された、完全かつ効率的な強化学習フレームワーク「EasyVideoR1」を提案する。EasyVideoR1の主な貢献は以下の通りである:(1)冗長な映像デコードを排除し、スループットを1.47倍向上させるオフライン前処理とテンソルキャッシュを備えた完全な映像RLトレーニングパイプライン、(2)11の異なる映像および画像問題タイプを統一的にルーティングしモジュール拡張可能な包括的タスク対応報酬システム、(3)厳選された高品質軌道と方策オン探索を組み合わせ、より困難なタスクの学習を促進する混合オフライン・オンラインデータ訓練パラダイム、(4)独立に設定可能なピクセル予算による画像と映像の共同訓練により、二つのモダリティが相互に補強し合う仕組み、(5)22の主流な映像理解ベンチマークを網羅し、再現精度が公式報告値に極めて近い非同期マルチベンチマーク評価フレームワーク。
English
Reinforcement learning from verifiable rewards (RLVR) has demonstrated remarkable effectiveness in improving the reasoning capabilities of large language models. As models evolve into natively multimodal architectures, extending RLVR to video understanding becomes increasingly important yet remains largely unexplored, due to the diversity of video task types, the computational overhead of repeatedly decoding and preprocessing high-dimensional visual inputs, and the difficulty of reproducible evaluation across numerous sensitive hyperparameters. Existing open-source RL training frameworks provide solid infrastructure for text and image scenarios but lack systematic optimizations tailored for video modality. In this work, we present EasyVideoR1, a complete and efficient reinforcement learning framework specifically designed for training large vision-language models on video understanding tasks. EasyVideoR1 makes the following contributions: (1) a full video RL training pipeline with offline preprocessing and tensor caching that eliminates redundant video decoding and yields a 1.47 times throughput improvement; (2) a comprehensive, task-aware reward system covering 11 distinct video and image problem types with unified routing and modular extension; (3) a mixed offline-online data training paradigm that combines curated high-quality trajectories with on-policy exploration, benefiting the learning of more challenging tasks; (4) joint image-video training with independently configurable pixel budgets, allowing the two modalities to mutually reinforce each other; and (5) an asynchronous multi-benchmark evaluation framework covering 22 mainstream video understanding benchmarks, with reproduced accuracy closely aligned with officially reported scores.