EVA : Apprentissage par Renforcement Efficace pour un Agent Vidéo de Bout en Bout

Résumé

La compréhension vidéo avec les modèles de langage multimodaux de grande taille (MLLM) reste difficile en raison des longues séquences de tokens vidéo, qui contiennent des dépendances temporelles étendues et des images redondantes. Les approches existantes traitent généralement les MLLM comme des reconnaisseurs passifs, traitant des vidéos entières ou des images échantillonnées uniformément sans raisonnement adaptatif. Les méthodes récentes basées sur des agents introduisent des outils externes, mais dépendent toujours de flux de travail conçus manuellement et de stratégies de perception d'abord, entraînant une inefficacité sur les vidéos longues. Nous présentons EVA, un cadre d'apprentissage par renforcement efficace pour un agent vidéo de bout en bout, qui permet une planification-avant-perception grâce à un raisonnement itératif résumé-plan-action-réflexion. EVA décide de manière autonome quoi regarder, quand regarder et comment regarder, permettant une compréhension vidéo efficace et pilotée par requête. Pour entraîner de tels agents, nous concevons un pipeline d'apprentissage en trois étapes simple mais efficace - comprenant le réglage fin supervisé (SFT), l'optimisation de Kahneman-Tversky (KTO) et l'optimisation de politique à récompense généralisée (GRPO) - qui fait le pont entre l'imitation supervisée et l'apprentissage par renforcement. Nous construisons en outre des ensembles de données de haute qualité pour chaque étape, soutenant un entraînement stable et reproductible. Nous évaluons EVA sur six benchmarks de compréhension vidéo, démontrant ses capacités complètes. Par rapport aux bases de référence existantes, EVA réalise une amélioration substantielle de 6 à 12 % par rapport aux MLLM généraux de base et un gain supplémentaire de 1 à 3 % par rapport aux méthodes adaptatives d'agents antérieures. Notre code et notre modèle sont disponibles à l'adresse https://github.com/wangruohui/EfficientVideoAgent.

English

Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.

EVA : Apprentissage par Renforcement Efficace pour un Agent Vidéo de Bout en Bout

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Résumé

Support