ChatPaper.aiChatPaper

EasyVideoR1: Aprendizaje por Refuerzo Simplificado para la Comprensión de Video

EasyVideoR1: Easier RL for Video Understanding

April 18, 2026
Autores: Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang
cs.AI

Resumen

El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) ha demostrado una notable eficacia para mejorar las capacidades de razonamiento de los grandes modelos de lenguaje. A medida que los modelos evolucionan hacia arquitecturas nativamente multimodales, extender el RLVR a la comprensión de vídeo se vuelve cada vez más importante, aunque sigue siendo un campo mayormente inexplorado. Esto se debe a la diversidad de tipos de tareas de vídeo, la sobrecarga computacional de decodificar y preprocesar repetidamente entradas visuales de alta dimensión, y la dificultad de una evaluación reproducible entre numerosos hiperparámetros sensibles. Los marcos de entrenamiento RL de código abierto existentes proporcionan una infraestructura sólida para escenarios de texto e imagen, pero carecen de optimizaciones sistemáticas adaptadas a la modalidad de vídeo. En este trabajo, presentamos EasyVideoR1, un marco de aprendizaje por refuerzo completo y eficiente diseñado específicamente para entrenar grandes modelos de visión y lenguaje en tareas de comprensión de vídeo. EasyVideoR1 realiza las siguientes contribuciones: (1) una canalización completa de entrenamiento RL para vídeo con preprocesamiento offline y almacenamiento en caché de tensores que elimina la decodificación redundante de vídeo y produce una mejora del rendimiento de 1.47 veces; (2) un sistema de recompensas integral y consciente de la tarea, que cubre 11 tipos distintos de problemas de vídeo e imagen con enrutamiento unificado y extensión modular; (3) un paradigma de entrenamiento de datos mixto offline-online que combina trayectorias curadas de alta calidad con exploración on-policy, beneficiando el aprendizaje de tareas más desafiantes; (4) entrenamiento conjunto de imagen-vídeo con presupuestos de píxeles independientemente configurables, permitiendo que las dos modalidades se refuercen mutuamente; y (5) un marco de evaluación asíncrono multi-benchmark que cubre 22 benchmarks principales de comprensión de vídeo, con una precisión reproducida estrechamente alineada con las puntuaciones reportadas oficialmente.
English
Reinforcement learning from verifiable rewards (RLVR) has demonstrated remarkable effectiveness in improving the reasoning capabilities of large language models. As models evolve into natively multimodal architectures, extending RLVR to video understanding becomes increasingly important yet remains largely unexplored, due to the diversity of video task types, the computational overhead of repeatedly decoding and preprocessing high-dimensional visual inputs, and the difficulty of reproducible evaluation across numerous sensitive hyperparameters. Existing open-source RL training frameworks provide solid infrastructure for text and image scenarios but lack systematic optimizations tailored for video modality. In this work, we present EasyVideoR1, a complete and efficient reinforcement learning framework specifically designed for training large vision-language models on video understanding tasks. EasyVideoR1 makes the following contributions: (1) a full video RL training pipeline with offline preprocessing and tensor caching that eliminates redundant video decoding and yields a 1.47 times throughput improvement; (2) a comprehensive, task-aware reward system covering 11 distinct video and image problem types with unified routing and modular extension; (3) a mixed offline-online data training paradigm that combines curated high-quality trajectories with on-policy exploration, benefiting the learning of more challenging tasks; (4) joint image-video training with independently configurable pixel budgets, allowing the two modalities to mutually reinforce each other; and (5) an asynchronous multi-benchmark evaluation framework covering 22 mainstream video understanding benchmarks, with reproduced accuracy closely aligned with officially reported scores.
PDF322April 22, 2026