InternVideo3 : Agentifier les modèles de fondation avec un raisonnement contextuel multimodal

Résumé

Les progrès récents des modèles de fondation se sont orientés vers un comportement agentique impliquant un raisonnement en plusieurs étapes et l'utilisation d'outils. Cependant, les efforts open-source se concentrent largement sur des contextes dominés par le texte, laissant les tâches multimodales à long horizon sous-explorées. Ce fossé est évident dans les tâches vidéo qui nécessitent une compréhension temporelle soutenue et une interaction itérative. Nous présentons InternVideo3, un cadre qui améliore ces capacités via le Raisonnement Contextuel Multimodal (RCM). Le RCM traite la compréhension comme un processus en boucle fermée sur un contexte partagé et évolutif contenant des observations, des instructions, des raisonnements, des actions d'outils et de la mémoire. Cela cadre la compréhension de vidéos longues comme une accumulation et une vérification de preuves. Pour garantir l'efficacité, nous introduisons l'Attention Latente Multimodale à Têtes Multiples (M²LA), une reparamétrisation préservant les tokens qui compresse les états du cache KV tout en conservant le flux complet de tokens. Notre entraînement par étapes comprend un pré-entraînement continu, un fine-tuning supervisé de court à long, un apprentissage par renforcement basé sur des règles et une distillation sur politique. Les expériences montrent qu'InternVideo3 atteint de solides performances sur des benchmarks tels que Video-MME, MLVU et EgoSchema. Nous instancions également le modèle en tant qu'agent vidéo avec des outils de recherche, démontrant un comportement robuste fondé sur des preuves. Nos résultats suggèrent qu'une gestion efficace du contexte et un raisonnement en boucle fermée sont essentiels pour adapter les modèles multimodaux ouverts à une agentivité visuellement ancrée à long horizon.

English

Recent progress in foundation models has shifted toward agentic behavior involving multi-step reasoning and tool use. However, open-source efforts largely focus on text-dominant settings, leaving long-horizon multimodal tasks underexplored. This gap is evident in video tasks requiring sustained temporal understanding and iterative interaction. We present InternVideo3, a framework enhancing these capabilities via Multimodal Contextual Reasoning (MCR). MCR treats understanding as a closed-loop process over a shared, evolving context containing observations, instructions, reasoning, tool actions, and memory. This frames long-video understanding as evidence accumulation and verification. To ensure efficiency, we introduce Multimodal Multi-head Latent Attention (M^2LA), a token-preserving reparameterization compressing KV-cache states while retaining the full token stream. Our staged training includes continued pretraining, short-to-long supervised fine-tuning, rule-based reinforcement learning, and on-policy distillation. Experiments show InternVideo3 achieves strong performance on benchmarks like Video-MME, MLVU, and EgoSchema. We further instantiate the model as a video agent with retrieval tools, demonstrating robust evidence-grounded behavior. Our results suggest that efficient context handling and closed-loop reasoning are vital for adapting open multimodal models toward long-horizon visually grounded agency.