EVA: Efficiënte Versterkingsleren voor End-to-End Video-Agenten

Samenvatting

Videobegrip met multimodale grote taalmodellen (MLLM's) blijft een uitdaging vanwege de lange tokenreeksen van video's, die uitgebreide temporele afhankelijkheden en redundante frames bevatten. Bestaande benaderingen behandelen MLLM's doorgaans als passieve herkenners die volledige video's of uniform bemonsterde frames verwerken zonder adaptieve redenering. Recente agent-gebaseerde methoden introduceren externe tools, maar zijn nog steeds afhankelijk van handmatig ontworpen workflows en perceptie-eerst strategieën, wat leidt tot inefficiëntie bij lange video's. Wij presenteren EVA, een efficiënt reinforcement learning-raamwerk voor end-to-end video-agenten, dat planning-voor-perceptie mogelijk maakt door iteratieve samenvatting-planning-actie-reflectie redenering. EVA beslist autonoom wat te bekijken, wanneer te bekijken en hoe te bekijken, waardoor query-gedreven en efficiënt videobegrip wordt bereikt. Om dergelijke agenten te trainen, ontwerpen we een eenvoudig maar effectief driestaps leerproces - bestaande uit supervised fine-tuning (SFT), Kahneman-Tversky Optimalisatie (KTO) en Generalized Reward Policy Optimalisatie (GRPO) - dat supervised imitatie en reinforcement learning verbindt. We construeren verder hoogwaardige datasets voor elke fase, die stabiele en reproduceerbare training ondersteunen. We evalueren EVA op zes videobegrip benchmarks, waarbij de veelzijdige capaciteiten worden gedemonstreerd. Vergeleken met bestaande baseline-methoden behaalt EVA een substantiële verbetering van 6-12% ten opzichte van algemene MLLM-baselines en een verdere winst van 1-3% ten opzichte van eerdere adaptieve agentmethoden. Onze code en model zijn beschikbaar op https://github.com/wangruohui/EfficientVideoAgent.

English

Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.

EVA: Efficiënte Versterkingsleren voor End-to-End Video-Agenten

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Samenvatting

Support