EVA: Effizientes Reinforcement Learning für End-to-End-Videoagenten

Zusammenfassung

Die Videoverständnis mit multimodalen großen Sprachmodellen (MLLMs) bleibt aufgrund der langen Token-Sequenzen von Videos, die umfangreiche zeitliche Abhängigkeiten und redundante Frames enthalten, eine Herausforderung. Bestehende Ansätze behandeln MLLMs typischerweise als passive Erkennungssysteme, die gesamte Videos oder gleichmäßig abgetastete Frames ohne adaptive Reasoning-Prozesse verarbeiten. Neuere agentenbasierte Methoden führen externe Werkzeuge ein, sind jedoch weiterhin auf manuell gestaltete Arbeitsabläufe und wahrnehmungsorientierte Strategien angewiesen, was zu Ineffizienz bei langen Videos führt. Wir stellen EVA vor, ein effizientes Reinforcement-Learning-Framework für End-to-End-Videoagenten, das Planung-vor-Wahrnehmung durch iteratives Zusammenfassungs-Planungs-Handlungs-Reflexions-Reasoning ermöglicht. EVA entscheidet autonom, was, wann und wie es betrachten soll, und erreicht damit eine abfragegesteuerte und effiziente Videoverständnis. Zur Ausbildung solcher Agenten entwerfen wir eine einfache aber effektive dreistufige Lernpipeline – bestehend aus Supervised Fine-Tuning (SFT), Kahneman-Tversky-Optimierung (KTO) und Generalisierter Belohnungs-Policy-Optimierung (GRPO) – die überwachtes Imitationslernen und Reinforcement Learning verbindet. Wir erstellen weiterhin hochwertige Datensätze für jede Stufe, die stabiles und reproduzierbares Training unterstützen. Wir evaluieren EVA auf sechs Videoverständnis-Benchmarks und demonstrieren seine umfassenden Fähigkeiten. Im Vergleich zu bestehenden Baseline-Methoden erzielt EVA eine deutliche Verbesserung von 6–12 % gegenüber allgemeinen MLLM-Baselines und einen weiteren Zuwachs von 1–3 % gegenüber früheren adaptiven Agentenmethoden. Unser Code und Modell sind verfügbar unter https://github.com/wangruohui/EfficientVideoAgent.

English

Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.

EVA: Effizientes Reinforcement Learning für End-to-End-Videoagenten

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Zusammenfassung

Support