EasyVideoR1: Apprendimento per Rinforzo Semplificato per la Comprensione Video
EasyVideoR1: Easier RL for Video Understanding
April 18, 2026
Autori: Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang
cs.AI
Abstract
L'apprendimento per rinforzo da ricompense verificabili (RLVR) ha dimostrato un'efficacia notevole nel migliorare le capacità di ragionamento dei grandi modelli linguistici. Con l'evoluzione dei modelli verso architetture nativamente multimodali, estendere l'RLVR alla comprensione video diventa sempre più importante, ma rimane in gran parte inesplorato a causa della diversità dei tipi di compiti video, del sovraccarico computazionale legato alla decodifica e preelaborazione ripetuta di input visivi ad alta dimensionalità e della difficoltà di una valutazione riproducibile attraverso numerosi iperparametri sensibili. I framework open-source esistenti per l'addestramento RL forniscono un'infrastruttura solida per scenari testuali e basati su immagini, ma mancano di ottimizzazioni sistemiche specifiche per la modalità video. In questo lavoro presentiamo EasyVideoR1, un framework completo ed efficiente per l'apprendimento per rinforzo, progettato specificamente per l'addestramento di grandi modelli visione-linguaggio su compiti di comprensione video. EasyVideoR1 apporta i seguenti contributi: (1) una pipeline completa per l'addestramento RL su video con preelaborazione offline e caching dei tensori, che elimina la decodifica video ridondante e garantisce un miglioramento di 1.47 volte nel throughput; (2) un sistema di ricompensa completo e consapevole del compito, che copre 11 tipi distinti di problemi video e basati su immagini con instradamento unificato ed estensione modulare; (3) un paradigma di addestramento misto offline-online che combina traiettorie curate di alta qualità con esplorazione on-policy, a vantaggio dell'apprendimento di compiti più complessi; (4) un addestramento congiunto immagine-video con budget di pixel configurabili indipendentemente, permettendo alle due modalità di rafforzarsi reciprocamente; e (5) un framework di valutazione asincrono multi-benchmark che copre 22 benchmark mainstream per la comprensione video, con accuratezza riprodotta strettamente allineata ai punteggi ufficialmente riportati.
English
Reinforcement learning from verifiable rewards (RLVR) has demonstrated remarkable effectiveness in improving the reasoning capabilities of large language models. As models evolve into natively multimodal architectures, extending RLVR to video understanding becomes increasingly important yet remains largely unexplored, due to the diversity of video task types, the computational overhead of repeatedly decoding and preprocessing high-dimensional visual inputs, and the difficulty of reproducible evaluation across numerous sensitive hyperparameters. Existing open-source RL training frameworks provide solid infrastructure for text and image scenarios but lack systematic optimizations tailored for video modality. In this work, we present EasyVideoR1, a complete and efficient reinforcement learning framework specifically designed for training large vision-language models on video understanding tasks. EasyVideoR1 makes the following contributions: (1) a full video RL training pipeline with offline preprocessing and tensor caching that eliminates redundant video decoding and yields a 1.47 times throughput improvement; (2) a comprehensive, task-aware reward system covering 11 distinct video and image problem types with unified routing and modular extension; (3) a mixed offline-online data training paradigm that combines curated high-quality trajectories with on-policy exploration, benefiting the learning of more challenging tasks; (4) joint image-video training with independently configurable pixel budgets, allowing the two modalities to mutually reinforce each other; and (5) an asynchronous multi-benchmark evaluation framework covering 22 mainstream video understanding benchmarks, with reproduced accuracy closely aligned with officially reported scores.