InternVideo3: Fundatiemodellen agentificeren met multimodale contextuele redenering

Samenvatting

De recente vooruitgang in funderingsmodellen is verschoven richting agentisch gedrag, waarbij meervoudige redeneerstappen en het gebruik van hulpmiddelen centraal staan. Open-source inspanningen richten zich echter voornamelijk op tekstdominante omgevingen, waardoor langdurige multimodale taken onderbelicht blijven. Deze lacune is duidelijk zichtbaar bij videotaken die een aanhoudend temporeel begrip en iteratieve interactie vereisen. We presenteren InternVideo3, een raamwerk dat deze mogelijkheden versterkt via Multimodale Contextuele Redenering (MCR). MCR beschouwt begrip als een gesloten-lus proces over een gedeelde, evoluerende context die observaties, instructies, redeneringen, toolacties en geheugen omvat. Dit kadert het begrijpen van lange video’s als het accumuleren en verifiëren van bewijs. Om efficiëntie te waarborgen, introduceren we Multimodale Multi-head Latente Aandacht (M^2LA), een token-bewarende herparametrisering die KV-cache-toestanden comprimeert terwijl de volledige tokenstroom behouden blijft. Onze gefaseerde training omvat voortgezette voortraining, kort-naar-lang gesuperviseerd finetunen, op regels gebaseerde reinforcement learning en on-policy distillatie. Experimenten tonen aan dat InternVideo3 sterke prestaties levert op benchmarks zoals Video-MME, MLVU en EgoSchema. We instantieren het model verder als een video-agent met zoekhulpmiddelen, wat robuust, op bewijs gebaseerd gedrag demonstreert. Onze resultaten suggereren dat efficiënte contextverwerking en gesloten-lus redenering essentieel zijn voor het aanpassen van open multimodale modellen aan langdurige, visueel gefundeerde agentische capaciteiten.

English

Recent progress in foundation models has shifted toward agentic behavior involving multi-step reasoning and tool use. However, open-source efforts largely focus on text-dominant settings, leaving long-horizon multimodal tasks underexplored. This gap is evident in video tasks requiring sustained temporal understanding and iterative interaction. We present InternVideo3, a framework enhancing these capabilities via Multimodal Contextual Reasoning (MCR). MCR treats understanding as a closed-loop process over a shared, evolving context containing observations, instructions, reasoning, tool actions, and memory. This frames long-video understanding as evidence accumulation and verification. To ensure efficiency, we introduce Multimodal Multi-head Latent Attention (M^2LA), a token-preserving reparameterization compressing KV-cache states while retaining the full token stream. Our staged training includes continued pretraining, short-to-long supervised fine-tuning, rule-based reinforcement learning, and on-policy distillation. Experiments show InternVideo3 achieves strong performance on benchmarks like Video-MME, MLVU, and EgoSchema. We further instantiate the model as a video agent with retrieval tools, demonstrating robust evidence-grounded behavior. Our results suggest that efficient context handling and closed-loop reasoning are vital for adapting open multimodal models toward long-horizon visually grounded agency.