EVA: Эффективное обучение с подкреплением для сквозных видеоплатформ

Аннотация

Понимание видео с помощью мультимодальных больших языковых моделей (MLLM) остается сложной задачей из-за длинных последовательностей токенов в видео, которые содержат обширные временные зависимости и избыточные кадры. Существующие подходы обычно рассматривают MLLM как пассивные распознаватели, обрабатывающие видео целиком или равномерно сэмплированные кадры без адаптивного рассуждения. Недавние агентские методы вводят внешние инструменты, но все же зависят от ручного проектирования рабочих процессов и стратегий «сначала восприятие», что приводит к неэффективности при работе с длинными видео. Мы представляем EVA, эффективную фреймворк-архитектуру с подкрепляемым обучением для сквозного видеоагента, которая обеспечивает планирование-перед-восприятием через итеративное рассуждение по схеме «резюме-план-действие-рефлексия». EVA автономно решает, что смотреть, когда смотреть и как смотреть, достигая запросно-ориентированного и эффективного понимания видео. Для обучения таких агентов мы разработали простой, но эффективный трехэтапный конвейер обучения — включающий контролируемое тонкое настраивание (SFT), оптимизацию по Канеману-Тверски (KTO) и обобщенную оптимизацию политики вознаграждения (GRPO) — который объединяет контролируемое имитационное обучение и обучение с подкреплением. Мы дополнительно создали высококачественные наборы данных для каждого этапа, обеспечивающие стабильное и воспроизводимое обучение. Мы оцениваем EVA на шести бенчмарках для понимания видео, демонстрируя ее комплексные возможности. По сравнению с существующими базовыми методами, EVA достигает существенного улучшения на 6–12% по сравнению с общими MLLM-базисами и дополнительного выигрыша в 1–3% по сравнению с предыдущими адаптивными агентскими методами. Наш код и модель доступны по адресу https://github.com/wangruohui/EfficientVideoAgent.

English

Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.

EVA: Эффективное обучение с подкреплением для сквозных видеоплатформ

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Аннотация

Support