EVA: Apprendimento per Rinforzo Efficiente per Agenti Video End-to-End
EVA: Efficient Reinforcement Learning for End-to-End Video Agent
March 24, 2026
Autori: Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu
cs.AI
Abstract
La comprensione video tramite modelli linguistici multimodali di grandi dimensioni (MLLM) rimane una sfida a causa delle lunghe sequenze di token dei video, che contengono estese dipendenze temporali e fotogrammi ridondanti. Gli approcci esistenti tipicamente trattano gli MLLM come riconoscitori passivi, elaborando interi video o fotogrammi campionati uniformemente senza un ragionamento adattivo. I recenti metodi basati su agenti introducono strumenti esterni, ma dipendono comunque da flussi di lavoro progettati manualmente e da strategie percezione-prima, risultando inefficienti su video lunghi. Presentiamo EVA, un framework di Reinforcement Learning Efficiente per Agenti Video End-to-End, che abilita una pianificazione-prima-della-percezione attraverso un ragionamento iterativo di riepilogo-pianificazione-azione-riflessione. EVA decide autonomamente cosa guardare, quando guardare e come guardare, raggiungendo una comprensione video efficiente e guidata dalla query. Per addestrare tali agenti, progettiamo una pipeline di apprendimento in tre fasi semplice ma efficace - comprendente fine-tuning supervisionato (SFT), Ottimizzazione di Kahneman-Tversky (KTO) e Ottimizzazione delle Politiche con Ricompensa Generalizzata (GRPO) - che colma il divario tra l'imitazione supervisionata e l'apprendimento per rinforzo. Costruiamo inoltre dataset di alta qualità per ogni fase, supportando un addestramento stabile e riproducibile. Valutiamo EVA su sei benchmark di comprensione video, dimostrandone le capacità complete. Rispetto ai baseline esistenti, EVA raggiunge un miglioramento sostanziale del 6-12% rispetto ai baseline MLLM generali e un ulteriore guadagno dell'1-3% rispetto ai precedenti metodi ad agenti adattivi. Il nostro codice e modello sono disponibili su https://github.com/wangruohui/EfficientVideoAgent.
English
Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.