InternVideo3: Agentifizierung von Grundlagenmodellen mit multimodalem kontextuellem Denken

Zusammenfassung

Die jüngsten Fortschritte bei Foundation-Modellen haben sich hin zu agentischem Verhalten entwickelt, das mehrstufiges Denken und die Nutzung von Werkzeugen umfasst. Open-Source-Bemühungen konzentrieren sich jedoch hauptsächlich auf textdominierte Umgebungen, sodass langfristige multimodale Aufgaben wenig erforscht sind. Diese Lücke zeigt sich insbesondere bei Videoaufgaben, die ein anhaltendes zeitliches Verständnis und iterative Interaktion erfordern. Wir stellen InternVideo3 vor, ein Framework, das diese Fähigkeiten durch Multimodales Kontextuelles Denken (Multimodal Contextual Reasoning, MCR) verbessert. MCR behandelt das Verständnis als einen geschlossenen Kreislaufprozess über einen gemeinsamen, sich entwickelnden Kontext, der Beobachtungen, Anweisungen, Denkschritte, Werkzeugaktionen und Gedächtnis umfasst. Dadurch wird das Verständnis langer Videos als Evidenzakkumulation und -verifikation betrachtet. Um Effizienz zu gewährleisten, führen wir die Multimodale Multi-Head Latent Attention (M^2LA) ein, eine token-erhaltende Reparametrisierung, die KV-Cache-Zustände komprimiert und gleichzeitig den gesamten Token-Strom beibehält. Unser gestuftes Training umfasst fortgesetztes Pre-Training, kurz-zu-lang überwachtes Fine-Tuning, regelbasiertes Reinforcement Learning und On-Policy Distillation. Experimente zeigen, dass InternVideo3 bei Benchmarks wie Video-MME, MLVU und EgoSchema eine hohe Leistung erzielt. Weiterhin instanziieren wir das Modell als Video-Agent mit Retrieval-Werkzeugen, was ein robustes, evidenzbasiertes Verhalten demonstriert. Unsere Ergebnisse deuten darauf hin, dass effiziente Kontexthandhabung und geschlossenes Denken entscheidend sind, um offene multimodale Modelle für langfristige visuell verankerte Agenten anzupassen.

English

Recent progress in foundation models has shifted toward agentic behavior involving multi-step reasoning and tool use. However, open-source efforts largely focus on text-dominant settings, leaving long-horizon multimodal tasks underexplored. This gap is evident in video tasks requiring sustained temporal understanding and iterative interaction. We present InternVideo3, a framework enhancing these capabilities via Multimodal Contextual Reasoning (MCR). MCR treats understanding as a closed-loop process over a shared, evolving context containing observations, instructions, reasoning, tool actions, and memory. This frames long-video understanding as evidence accumulation and verification. To ensure efficiency, we introduce Multimodal Multi-head Latent Attention (M^2LA), a token-preserving reparameterization compressing KV-cache states while retaining the full token stream. Our staged training includes continued pretraining, short-to-long supervised fine-tuning, rule-based reinforcement learning, and on-policy distillation. Experiments show InternVideo3 achieves strong performance on benchmarks like Video-MME, MLVU, and EgoSchema. We further instantiate the model as a video agent with retrieval tools, demonstrating robust evidence-grounded behavior. Our results suggest that efficient context handling and closed-loop reasoning are vital for adapting open multimodal models toward long-horizon visually grounded agency.