InternVideo-Next : Vers des modèles fondamentaux vidéo généraux sans supervision vidéo-texte
InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
December 1, 2025
papers.authors: Chenting Wang, Yuhan Zhu, Yicheng Xu, Jiange Yang, Ziang Yan, Yali Wang, Yi Wang, Limin Wang
cs.AI
papers.abstract
Le pré-entraînement à grande échelle sur des paires vidéo-texte obtient de fortes performances, mais il dépend de légendes synthétiques bruitées ayant une couverture sémantique limitée, négligeant souvent les connaissances implicites du monde telles que le mouvement des objets, la géométrie 3D et les indices physiques. En revanche, la modélisation de vidéos masquées (MVM) exploite directement les structures spatiotemporelles, mais reste à la traîne des méthodes supervisées par le texte sur les tâches générales. Nous constatons que cet écart provient de problèmes architecturaux négligés : la reconstruction au niveau des pixels peine à converger et son exigence de bas niveau entre souvent en conflit avec la sémantique, tandis que la prédiction latente encourage souvent l'apprentissage de raccourcis. Pour y remédier, nous dissocions la conception traditionnelle encodeur-décodeur en un cadre Encodeur-Prédicteur-Décodeur (EPD), où le prédicteur agit comme un modèle latent du monde, et nous proposons InternVideo-Next, un schéma de pré-entraînement en deux étapes qui construit un espace latent sémantiquement cohérent tout en préservant les détails pour ce modèle du monde. Premièrement, le décodeur linéaire conventionnel dans la MVM pixel impose que la sortie latente du prédicteur soit projetée linéairement, et donc séparable dans l'espace pixel, causant un conflit avec l'abstraction sémantique. Notre Étape 1 propose un décodeur à diffusion conditionnelle et injecte des préconnaissances sémantiques fiables au niveau de l'image pour améliorer la sémantique et la convergence, créant ainsi un pont entre la fidélité au niveau pixel et l'abstraction sémantique de haut niveau. L'Étape 2 apprend davantage de connaissances du monde en prédisant les cibles gelées de l'Étape 1 au sein de cet espace, atténuant ainsi l'apprentissage de raccourcis. Entraîné sur des vidéos publiques non étiquetées, InternVideo-Next obtient des résultats state-of-the-art sur divers benchmarks et offre une voie évolutive vers l'apprentissage de représentations vidéo générales.
English
Large-scale video-text pretraining achieves strong performance but depends on noisy, synthetic captions with limited semantic coverage, often overlooking implicit world knowledge such as object motion, 3D geometry, and physical cues. In contrast, masked video modeling (MVM) directly exploits spatiotemporal structures but trails text-supervised methods on general tasks. We find this gap arises from overlooked architectural issues: pixel-level reconstruction struggles with convergence and its low-level requirement often conflicts with semantics, while latent prediction often encourages shortcut learning. To address these, we disentangle the traditional encoder-decoder design into an Encoder-Predictor-Decoder (EPD) framework, where the predictor acts as a latent world model, and propose InternVideo-Next, a two-stage pretraining scheme that builds a semantically consistent yet detail-preserving latent space for this world model. First, conventional linear decoder in pixel MVM enforces the predictor output latent to be linearly projected to, thus separable in pixel space, causing the conflict with semantic abstraction. Our Stage 1 proposes a conditional diffusion decoder and injects reliable image-level semantic priors to enhance semantics and convergence, thus bridging pixel-level fidelity with high-level semantic abstraction. Stage 2 further learns world knowledge by predicting frozen Stage 1 targets within this space, mitigating shortcut learning. Trained on public, unlabeled videos, InternVideo-Next achieves state-of-the-art results across benchmarks and provides a scalable path toward general video representation learning.