InternVideo3: Agentificar Modelos Fundacionais com Raciocínio Contextual Multimodal

Resumo

O progresso recente em modelos de base tem se direcionado para o comportamento agentivo, envolvendo raciocínio em múltiplas etapas e uso de ferramentas. No entanto, os esforços de código aberto concentram-se majoritariamente em configurações dominadas por texto, deixando tarefas multimodais de longo horizonte pouco exploradas. Essa lacuna é evidente em tarefas de vídeo que exigem compreensão temporal sustentada e interação iterativa. Apresentamos o InternVideo3, uma estrutura que aprimora essas capacidades por meio do Raciocínio Contextual Multimodal (MCR – Multimodal Contextual Reasoning). O MCR trata a compreensão como um processo em malha fechada sobre um contexto compartilhado e em evolução, contendo observações, instruções, raciocínio, ações de ferramentas e memória. Isso enquadra a compreensão de vídeos longos como acumulação e verificação de evidências. Para garantir eficiência, introduzimos a Atenção Latente Multimodal com Múltiplas Cabeças (M²LA – Multimodal Multi-head Latent Attention), uma reparametrização preservadora de tokens que comprime os estados do cache KV enquanto retém o fluxo completo de tokens. Nosso treinamento em estágios inclui pré-treinamento continuado, ajuste fino supervisionado de curto para longo, aprendizado por reforço baseado em regras e destilação on-policy. Experimentos mostram que o InternVideo3 alcança desempenho robusto em benchmarks como Video-MME, MLVU e EgoSchema. Além disso, instanciamos o modelo como um agente de vídeo com ferramentas de recuperação, demonstrando comportamento robusto fundamentado em evidências. Nossos resultados sugerem que o manuseio eficiente de contexto e o raciocínio em malha fechada são vitais para adaptar modelos multimodais abertos rumo a uma agência visualmente fundamentada de longo horizonte.

English

Recent progress in foundation models has shifted toward agentic behavior involving multi-step reasoning and tool use. However, open-source efforts largely focus on text-dominant settings, leaving long-horizon multimodal tasks underexplored. This gap is evident in video tasks requiring sustained temporal understanding and iterative interaction. We present InternVideo3, a framework enhancing these capabilities via Multimodal Contextual Reasoning (MCR). MCR treats understanding as a closed-loop process over a shared, evolving context containing observations, instructions, reasoning, tool actions, and memory. This frames long-video understanding as evidence accumulation and verification. To ensure efficiency, we introduce Multimodal Multi-head Latent Attention (M^2LA), a token-preserving reparameterization compressing KV-cache states while retaining the full token stream. Our staged training includes continued pretraining, short-to-long supervised fine-tuning, rule-based reinforcement learning, and on-policy distillation. Experiments show InternVideo3 achieves strong performance on benchmarks like Video-MME, MLVU, and EgoSchema. We further instantiate the model as a video agent with retrieval tools, demonstrating robust evidence-grounded behavior. Our results suggest that efficient context handling and closed-loop reasoning are vital for adapting open multimodal models toward long-horizon visually grounded agency.