InternVideo3: Agentizar Modelos Fundacionales con Razonamiento Contextual Multimodal

Resumen

El progreso reciente en los modelos fundamentales se ha desplazado hacia un comportamiento agéntico que implica razonamiento en múltiples pasos y uso de herramientas. Sin embargo, los esfuerzos de código abierto se centran principalmente en entornos dominados por texto, dejando poco exploradas las tareas multimodales de horizonte largo. Esta brecha es evidente en tareas de video que requieren comprensión temporal sostenida e interacción iterativa. Presentamos InternVideo3, un marco que mejora estas capacidades mediante el Razonamiento Contextual Multimodal (MCR). MCR trata la comprensión como un proceso de bucle cerrado sobre un contexto compartido y en evolución que contiene observaciones, instrucciones, razonamiento, acciones de herramientas y memoria. Esto enmarca la comprensión de videos largos como acumulación y verificación de evidencia. Para garantizar la eficiencia, introducimos la Atención Latente Multimodal de Múltiples Cabezas (M^2LA), una reparametrización que preserva tokens y comprime los estados de la caché KV mientras retiene el flujo completo de tokens. Nuestro entrenamiento por etapas incluye preentrenamiento continuado, ajuste fino supervisado de corto a largo, aprendizaje por refuerzo basado en reglas y destilación en política. Los experimentos muestran que InternVideo3 logra un rendimiento sólido en puntos de referencia como Video-MME, MLVU y EgoSchema. Además, instanciamos el modelo como un agente de video con herramientas de recuperación, demostrando un comportamiento sólido basado en evidencia. Nuestros resultados sugieren que el manejo eficiente del contexto y el razonamiento en bucle cerrado son vitales para adaptar los modelos multimodales abiertos hacia una agencia visualmente fundamentada de horizonte largo.

English

Recent progress in foundation models has shifted toward agentic behavior involving multi-step reasoning and tool use. However, open-source efforts largely focus on text-dominant settings, leaving long-horizon multimodal tasks underexplored. This gap is evident in video tasks requiring sustained temporal understanding and iterative interaction. We present InternVideo3, a framework enhancing these capabilities via Multimodal Contextual Reasoning (MCR). MCR treats understanding as a closed-loop process over a shared, evolving context containing observations, instructions, reasoning, tool actions, and memory. This frames long-video understanding as evidence accumulation and verification. To ensure efficiency, we introduce Multimodal Multi-head Latent Attention (M^2LA), a token-preserving reparameterization compressing KV-cache states while retaining the full token stream. Our staged training includes continued pretraining, short-to-long supervised fine-tuning, rule-based reinforcement learning, and on-policy distillation. Experiments show InternVideo3 achieves strong performance on benchmarks like Video-MME, MLVU, and EgoSchema. We further instantiate the model as a video agent with retrieval tools, demonstrating robust evidence-grounded behavior. Our results suggest that efficient context handling and closed-loop reasoning are vital for adapting open multimodal models toward long-horizon visually grounded agency.