ChatPaper.aiChatPaper

EasyVideoR1: 비디오 이해를 위한 더 쉬운 강화학습

EasyVideoR1: Easier RL for Video Understanding

April 18, 2026
저자: Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang
cs.AI

초록

검증 가능한 보상 강화학습(RLVR)은 대규모 언어 모델의 추론 능력 향상에 뛰어난 효과를 입증해왔습니다. 모델이 본질적으로 다중 모드 아키텍처로 진화함에 따라 RLVR을 비디오 이해 영역으로 확장하는 것은 점점 더 중요해지고 있으나, 비디오 과업 유형의 다양성, 고차원 시각 입력의 반복적 디코딩 및 전처리로 인한 계산 부담, 그리고 수많은 민감한 하이퍼파라미터에 대한 재현 가능한 평가의 어려움으로 인해 여전히 크게 탐구되지 않고 있습니다. 기존 오픈소스 RL 훈련 프레임워크는 텍스트 및 이미지 시나리오를 위한 견고한 기반을 제공하지만 비디오 양식에 맞춤화된 체계적인 최적화가 부족합니다. 본 연구에서는 비디오 이해 과업에서 대규모 시각-언어 모델을 훈련시키기 위해 특별히 설계된 완전하고 효율적인 강화학습 프레임워크인 EasyVideoR1을 제안합니다. EasyVideoR1은 다음과 같은 기여를 합니다: (1) 불필요한 비디오 디코딩을 제거하고 처리량을 1.47배 향상시키는 오프라인 전처리 및 텐서 캐싱을 갖춘 완전한 비디오 RL 훈련 파이프라인; (2) 11가지의 서로 다른 비디오 및 이미지 문제 유형을 통합 라우팅과 모듈식 확장으로 포괄하는 과업 인식 보상 시스템; (3) 정제된 고품질 궤적과 정책 기반 탐사를 결합하여 더 어려운 과업 학습에 도움이 되는 혼합 오프라인-온라인 데이터 훈련 패러다임; (4) 독립적으로 구성 가능한 픽셀 예산을 통한 이미지-비디오 공동 훈련으로 두 양식이 상호 강화될 수 있도록 함; (5) 22개의 주류 비디오 이해 벤치마크를 포괄하며, 재현된 정확도가 공식 보고 점수와 밀접하게 일치하는 비동기 다중 벤치마크 평가 프레임워크.
English
Reinforcement learning from verifiable rewards (RLVR) has demonstrated remarkable effectiveness in improving the reasoning capabilities of large language models. As models evolve into natively multimodal architectures, extending RLVR to video understanding becomes increasingly important yet remains largely unexplored, due to the diversity of video task types, the computational overhead of repeatedly decoding and preprocessing high-dimensional visual inputs, and the difficulty of reproducible evaluation across numerous sensitive hyperparameters. Existing open-source RL training frameworks provide solid infrastructure for text and image scenarios but lack systematic optimizations tailored for video modality. In this work, we present EasyVideoR1, a complete and efficient reinforcement learning framework specifically designed for training large vision-language models on video understanding tasks. EasyVideoR1 makes the following contributions: (1) a full video RL training pipeline with offline preprocessing and tensor caching that eliminates redundant video decoding and yields a 1.47 times throughput improvement; (2) a comprehensive, task-aware reward system covering 11 distinct video and image problem types with unified routing and modular extension; (3) a mixed offline-online data training paradigm that combines curated high-quality trajectories with on-policy exploration, benefiting the learning of more challenging tasks; (4) joint image-video training with independently configurable pixel budgets, allowing the two modalities to mutually reinforce each other; and (5) an asynchronous multi-benchmark evaluation framework covering 22 mainstream video understanding benchmarks, with reproduced accuracy closely aligned with officially reported scores.
PDF322April 22, 2026