EVA: Aprendizaje por Refuerzo Eficiente para Agentes de Video de Extremo a Extremo

Resumen

La comprensión de vídeo mediante modelos de lenguaje grandes multimodales (MLLM) sigue siendo un desafío debido a las largas secuencias de tokens de los vídeos, que contienen extensas dependencias temporales y fotogramas redundantes. Los enfoques existentes suelen tratar a los MLLM como reconocedores pasivos, procesando vídeos completos o fotogramas muestreados uniformemente sin razonamiento adaptativo. Los métodos recientes basados en agentes introducen herramientas externas, pero aún dependen de flujos de trabajo manualmente diseñados y estrategias de percepción-primero, lo que resulta en ineficiencia para vídeos largos. Presentamos EVA, un marco de Aprendizaje por Refuerzo Eficiente para Agentes de Vídeo de Extremo a Extremo, que permite la planificación-antes-de-la-percepción mediante un razonamiento iterativo de resumen-planificación-acción-reflexión. EVA decide autónomamente qué ver, cuándo ver y cómo ver, logrando una comprensión de vídeo eficiente y impulsada por consultas. Para entrenar dichos agentes, diseñamos un pipeline de aprendizaje de tres etapas simple pero efectivo —que comprende ajuste fino supervisado (SFT), Optimización de Kahneman-Tversky (KTO) y Optimización de Políticas de Recompensa Generalizada (GRPO)— que une la imitación supervisada y el aprendizaje por refuerzo. Además, construimos conjuntos de datos de alta calidad para cada etapa, apoyando un entrenamiento estable y reproducible. Evaluamos EVA en seis benchmarks de comprensión de vídeo, demostrando sus capacidades integrales. En comparación con las líneas base existentes, EVA logra una mejora sustancial del 6-12% sobre las líneas base generales de MLLM y una ganancia adicional del 1-3% sobre los métodos de agentes adaptativos previos. Nuestro código y modelo están disponibles en https://github.com/wangruohui/EfficientVideoAgent.

English

Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.

EVA: Aprendizaje por Refuerzo Eficiente para Agentes de Video de Extremo a Extremo

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Resumen

Support