ChatPaper.aiChatPaper

InternVideo-Next: Verso Modelli Fondamentali Video Generali senza Supervisione Video-Text

InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision

December 1, 2025
Autori: Chenting Wang, Yuhan Zhu, Yicheng Xu, Jiange Yang, Ziang Yan, Yali Wang, Yi Wang, Limin Wang
cs.AI

Abstract

Il pre-addestramento su larga scala video-testo ottiene prestazioni elevate, ma dipende da didascalie sintetiche e rumorose con una copertura semantica limitata, trascurando spesso la conoscenza implicita del mondo come il movimento degli oggetti, la geometria 3D e i segnali fisici. Al contrario, la modellazione video mascherata (MVM) sfrutta direttamente le strutture spaziotemporali, ma rimane indietro rispetto ai metodi supervisionati da testo in compiti generali. Riteniamo che questo divario derivi da problemi architetturali trascurati: la ricostruzione a livello di pixel fatica a convergere e la sua esigenza di basso livello spesso confligge con la semantica, mentre la predizione latente spesso incoraggia l'apprendimento di scorciatoie. Per affrontare ciò, separiamo il tradizionale design encoder-decoder in un framework Encoder-Predictor-Decoder (EPD), in cui il predictor funge da modello latente del mondo, e proponiamo InternVideo-Next, uno schema di pre-addestramento in due fasi che costruisce uno spazio latente semanticamente coerente ma che preserva i dettagli per questo modello mondiale. In primo luogo, il decodificatore lineare convenzionale nella MVM a pixel impone che l'output latente del predictor sia proiettato linearmente, e quindi separabile nello spazio dei pixel, causando il conflitto con l'astrazione semantica. La nostra Fase 1 propone un decodificatore diffusion condizionale e inietta prior semantici affidabili a livello di immagine per potenziare la semantica e la convergenza, colmando così la fedeltà a livello di pixel con l'astrazione semantica di alto livello. La Fase 2 apprende ulteriormente la conoscenza del mondo predicendo i target congelati della Fase 1 all'interno di questo spazio, mitigando l'apprendimento per scorciatoia. Addestrato su video pubblici non etichettati, InternVideo-Next raggiunge risultati all'avanguardia in vari benchmark e fornisce un percorso scalabile verso l'apprendimento di rappresentazioni video generali.
English
Large-scale video-text pretraining achieves strong performance but depends on noisy, synthetic captions with limited semantic coverage, often overlooking implicit world knowledge such as object motion, 3D geometry, and physical cues. In contrast, masked video modeling (MVM) directly exploits spatiotemporal structures but trails text-supervised methods on general tasks. We find this gap arises from overlooked architectural issues: pixel-level reconstruction struggles with convergence and its low-level requirement often conflicts with semantics, while latent prediction often encourages shortcut learning. To address these, we disentangle the traditional encoder-decoder design into an Encoder-Predictor-Decoder (EPD) framework, where the predictor acts as a latent world model, and propose InternVideo-Next, a two-stage pretraining scheme that builds a semantically consistent yet detail-preserving latent space for this world model. First, conventional linear decoder in pixel MVM enforces the predictor output latent to be linearly projected to, thus separable in pixel space, causing the conflict with semantic abstraction. Our Stage 1 proposes a conditional diffusion decoder and injects reliable image-level semantic priors to enhance semantics and convergence, thus bridging pixel-level fidelity with high-level semantic abstraction. Stage 2 further learns world knowledge by predicting frozen Stage 1 targets within this space, mitigating shortcut learning. Trained on public, unlabeled videos, InternVideo-Next achieves state-of-the-art results across benchmarks and provides a scalable path toward general video representation learning.
PDF140December 3, 2025