InternVideo3: Агентификация фундаментальных моделей с мультимодальным контекстуальным рассуждением

Аннотация

Недавний прогресс в области фундаментальных моделей сместился в сторону агентного поведения, включающего многошаговые рассуждения и использование инструментов. Однако усилия с открытым исходным кодом в основном сосредоточены на текстовых сценариях, оставляя долгосрочные мультимодальные задачи недостаточно изученными. Этот пробел особенно заметен в видео-задачах, требующих устойчивого временного понимания и итеративного взаимодействия. Мы представляем InternVideo3 — платформу, улучшающую эти возможности с помощью мультимодального контекстного рассуждения (MCR). MCR трактует понимание как замкнутый процесс над общим, эволюционирующим контекстом, содержащим наблюдения, инструкции, рассуждения, действия с инструментами и память. Это позволяет рассматривать понимание длинных видео как накопление и верификацию свидетельств. Для обеспечения эффективности мы вводим мультимодальное многоголовочное латентное внимание (M²LA) — репараметризацию с сохранением токенов, которая сжимает состояния KV-кэша, сохраняя полный поток токенов. Наше поэтапное обучение включает продолженное предобучение, контролируемую тонкую настройку от коротких к длинным последовательностям, обучение с подкреплением на основе правил и дистилляцию по текущей политике. Эксперименты показывают, что InternVideo3 достигает высоких результатов на таких бенчмарках, как Video-MME, MLVU и EgoSchema. Мы также реализуем модель в качестве видеоагента с инструментами поиска, демонстрируя устойчивое поведение, основанное на свидетельствах. Наши результаты показывают, что эффективная обработка контекста и замкнутые рассуждения имеют решающее значение для адаптации открытых мультимодальных моделей к долгосрочному визуально обоснованному агентному поведению.

English

Recent progress in foundation models has shifted toward agentic behavior involving multi-step reasoning and tool use. However, open-source efforts largely focus on text-dominant settings, leaving long-horizon multimodal tasks underexplored. This gap is evident in video tasks requiring sustained temporal understanding and iterative interaction. We present InternVideo3, a framework enhancing these capabilities via Multimodal Contextual Reasoning (MCR). MCR treats understanding as a closed-loop process over a shared, evolving context containing observations, instructions, reasoning, tool actions, and memory. This frames long-video understanding as evidence accumulation and verification. To ensure efficiency, we introduce Multimodal Multi-head Latent Attention (M^2LA), a token-preserving reparameterization compressing KV-cache states while retaining the full token stream. Our staged training includes continued pretraining, short-to-long supervised fine-tuning, rule-based reinforcement learning, and on-policy distillation. Experiments show InternVideo3 achieves strong performance on benchmarks like Video-MME, MLVU, and EgoSchema. We further instantiate the model as a video agent with retrieval tools, demonstrating robust evidence-grounded behavior. Our results suggest that efficient context handling and closed-loop reasoning are vital for adapting open multimodal models toward long-horizon visually grounded agency.