EVA: 종단 간 비디오 에이전트를 위한 효율적 강화 학습
EVA: Efficient Reinforcement Learning for End-to-End Video Agent
March 24, 2026
저자: Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)을 활용한 비디오 이해는 비디오의 긴 토큰 시퀀스, 즉 광범위한 시간적 의존성과 중복 프레임으로 인해 여전히 어려운 과제입니다. 기존 접근법은 일반적으로 MLLM을 수동적인 인식기로 간주하여 전체 비디오나 균일하게 샘플링된 프레임을 적응형 추론 없이 처리합니다. 최근 에이전트 기반 방법론은 외부 도구를 도입하지만, 여전히 수동으로 설계된 워크플로우와 인식-우선 전략에 의존하여 긴 비디오에서 비효율성을 초래합니다. 본 논문에서는 반복적 요약-계획-행동-성찰 추론을 통해 계획-선행-인식을 가능하게 하는 종단 간 비디오 에이전트를 위한 효율적 강화 학습 프레임워크인 EVA를 제안합니다. EVA는 무엇을, 언제, 어떻게 볼지를 자율적으로 결정하여 질의 주도적이고 효율적인 비디오 이해를 달성합니다. 이러한 에이전트를 학습시키기 위해 지도 모방 학습과 강화 학습을 연결하는 간단하면서도 효과적인 3단계 학습 파이프라인(지도 미세 조정, 카너먼-트버스키 최적화, 일반화 보상 정책 최적화)을 설계했습니다. 또한 각 단계를 위한 고품질 데이터셋을 구축하여 안정적이고 재현 가능한 학습을 지원합니다. 6개의 비디오 이해 벤치마크에서 EVA를 평가하여 포괄적인 성능을 입증했습니다. 기존 기준 모델과 비교 시, EVA는 일반 MLLM 기준 모델 대비 6-12%의 상당한 성능 향상을 달성했으며, 기존 적응형 에이전트 방법론 대비해서도 추가로 1-3%의 성능 향상을 보였습니다. 코드와 모델은 https://github.com/wangruohui/EfficientVideoAgent 에서 이용 가능합니다.
English
Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.