EasyVideoR1: Aprendizado por Reforço Simplificado para Compreensão de Vídeo

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) demonstrou eficácia notável na melhoria das capacidades de raciocínio de grandes modelos de linguagem. À medida que os modelos evoluem para arquiteturas multimodalmente nativas, estender o RLVR para a compreensão de vídeo torna-se cada vez mais importante, mas permanece amplamente inexplorado, devido à diversidade de tipos de tarefas de vídeo, à sobrecarga computacional de decodificar e pré-processar repetidamente entradas visuais de alta dimensão e à dificuldade de avaliação reproduzível entre numerosos hiperparâmetros sensíveis. As estruturas de treinamento RL de código aberto existentes fornecem infraestrutura sólida para cenários de texto e imagem, mas carecem de otimizações sistemáticas adaptadas à modalidade de vídeo. Neste trabalho, apresentamos o EasyVideoR1, uma estrutura completa e eficiente de aprendizado por reforço projetada especificamente para treinar grandes modelos visão-linguagem em tarefas de compreensão de vídeo. O EasyVideoR1 oferece as seguintes contribuições: (1) um pipeline completo de treinamento RL para vídeo com pré-processamento offline e armazenamento em cache de tensores que elimina a decodificação redundante de vídeo e produz um ganho de throughput de 1,47 vezes; (2) um sistema de recompensa abrangente e consciente da tarefa, cobrindo 11 tipos distintos de problemas de vídeo e imagem com roteamento unificado e extensão modular; (3) um paradigma de treinamento de dados misto offline-online que combina trajetórias curadas de alta qualidade com exploração on-policy, beneficiando a aprendizagem de tarefas mais desafiadoras; (4) treinamento conjunto de imagem-vídeo com orçamentos de pixels independentemente configuráveis, permitindo que as duas modalidades se reforcem mutuamente; e (5) uma estrutura de avaliação assíncrona multi-benchmark abrangendo 22 benchmarks principais de compreensão de vídeo, com precisão reproduzida alinhada de perto com as pontuações oficialmente relatadas.

English

Reinforcement learning from verifiable rewards (RLVR) has demonstrated remarkable effectiveness in improving the reasoning capabilities of large language models. As models evolve into natively multimodal architectures, extending RLVR to video understanding becomes increasingly important yet remains largely unexplored, due to the diversity of video task types, the computational overhead of repeatedly decoding and preprocessing high-dimensional visual inputs, and the difficulty of reproducible evaluation across numerous sensitive hyperparameters. Existing open-source RL training frameworks provide solid infrastructure for text and image scenarios but lack systematic optimizations tailored for video modality. In this work, we present EasyVideoR1, a complete and efficient reinforcement learning framework specifically designed for training large vision-language models on video understanding tasks. EasyVideoR1 makes the following contributions: (1) a full video RL training pipeline with offline preprocessing and tensor caching that eliminates redundant video decoding and yields a 1.47 times throughput improvement; (2) a comprehensive, task-aware reward system covering 11 distinct video and image problem types with unified routing and modular extension; (3) a mixed offline-online data training paradigm that combines curated high-quality trajectories with on-policy exploration, benefiting the learning of more challenging tasks; (4) joint image-video training with independently configurable pixel budgets, allowing the two modalities to mutually reinforce each other; and (5) an asynchronous multi-benchmark evaluation framework covering 22 mainstream video understanding benchmarks, with reproduced accuracy closely aligned with officially reported scores.

EasyVideoR1: Aprendizado por Reforço Simplificado para Compreensão de Vídeo

EasyVideoR1: Easier RL for Video Understanding

Resumo

Support