EVA: エンドツーエンドビデオエージェントのための効率的強化学習
EVA: Efficient Reinforcement Learning for End-to-End Video Agent
March 24, 2026
著者: Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)を用いた映像理解は、映像の長いトークン系列が時間的依存関係と冗長なフレームを大量に含むため、依然として課題が多い。既存の手法では、MLLMを受動的な認識器として扱い、映像全体や均一にサンプリングされたフレームを適応的推論なしに処理するのが一般的である。近年のエージェントベース手法は外部ツールを導入するものの、手動で設計されたワークフローと知覚優先戦略に依存しており、長い映像では非効率である。本論文では、計画先行型の映像理解を反復的な要約・計画・行動・反省推論によって実現する、エンドツーエンド映像エージェントのための効率的強化学習フレームワーク「EVA」を提案する。EVAは何を・いつ・どのように視聴するかを自律的に決定し、クエリ駆動かつ効率的な映像理解を実現する。このようなエージェントを訓練するため、教師あり模倣学習と強化学習を橋渡しする、教師ありファインチューニング(SFT)、カーネマン・トベルスキー最適化(KTO)、一般化報酬方策最適化(GRPO)から構成される簡潔かつ効果的な3段階学習パイプラインを設計した。さらに各段階に対応する高品質なデータセットを構築し、安定かつ再現性の高い訓練を支援する。6つの映像理解ベンチマークでEVAを評価し、その総合的な能力を実証した。既存のベースラインと比較して、EVAは一般MLLMベースラインより6~12%大幅に向上し、従来の適応型エージェント手法よりさらに1~3%の性能向上を達成した。コードとモデルはhttps://github.com/wangruohui/EfficientVideoAgentで公開している。
English
Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.