EVA: Aprendizagem por Reforço Eficiente para Agentes de Vídeo End-to-End
EVA: Efficient Reinforcement Learning for End-to-End Video Agent
March 24, 2026
Autores: Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu
cs.AI
Resumo
A compreensão de vídeo com modelos de linguagem grandes multimodais (MLLMs) permanece desafiadora devido às longas sequências de tokens dos vídeos, que contêm extensas dependências temporais e quadros redundantes. As abordagens existentes normalmente tratam os MLLMs como reconhecedores passivos, processando vídeos inteiros ou quadros amostrados uniformemente sem raciocínio adaptativo. Métodos recentes baseados em agentes introduzem ferramentas externas, mas ainda dependem de fluxos de trabalho manualmente projetados e estratégias de percepção-primeiro, resultando em ineficiência em vídeos longos. Apresentamos o EVA, um Framework de Aprendizagem por Reforço Eficiente para Agente de Vídeo de Ponta a Ponta, que permite o planejamento-antes-da-percepção através de um raciocínio iterativo de resumo-planejamento-ação-reflexão. O EVA decide autonomamente o que assistir, quando assistir e como assistir, alcançando uma compreensão de vídeo eficiente e orientada por consulta. Para treinar tais agentes, projetamos um pipeline de aprendizado em três estágios simples, porém eficaz - compreendendo ajuste fino supervisionado (SFT), Otimização de Kahneman-Tversky (KTO) e Otimização de Política de Recompensa Generalizada (GRPO) - que conecta a imitação supervisionada e a aprendizagem por reforço. Além disso, construímos conjuntos de dados de alta qualidade para cada estágio, apoiando um treinamento estável e reproduzível. Avaliamos o EVA em seis benchmarks de compreensão de vídeo, demonstrando suas capacidades abrangentes. Em comparação com as linhas de base existentes, o EVA alcança uma melhoria substancial de 6-12% sobre as linhas de base gerais de MLLM e um ganho adicional de 1-3% sobre os métodos anteriores de agentes adaptativos. Nosso código e modelo estão disponíveis em https://github.com/wangruohui/EfficientVideoAgent.
English
Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.