InternVideo-Next:ビデオテキスト監視なしで汎用ビデオ基盤モデルを目指して
InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
December 1, 2025
著者: Chenting Wang, Yuhan Zhu, Yicheng Xu, Jiange Yang, Ziang Yan, Yali Wang, Yi Wang, Limin Wang
cs.AI
要旨
大規模なビデオ-テキスト事前学習は強力な性能を達成するが、意味的カバレッジが限られたノイジーな合成キャプションに依存しており、物体の運動、3D形状、物理的手がかりなどの暗黙的な世界知識を見落としがちである。一方、マスク付きビデオモデリング(MVM)は時空間構造を直接活用するが、一般的なタスクではテキスト監視手法に劣る。この乖離は、見過ごされていた構造的問題に起因すると私たちは考える:ピクセルレベル再構築は収束に苦戦し、その低レベルな要求は意味論と衝突することが多い。また、潜在表現予測はしばしばショートカット学習を促進する。これらを解決するため、私たちは従来のエンコーダ-デコーダ設計をエンコーダ-予測器-デコーダ(EPD)フレームワークに分離する(予測器は潜在世界モデルとして機能)。さらに、この世界モデルのために意味的一貫性を保ちつつ詳細を保存する潜在空間を構築する二段階事前学習スキーム、InternVideo-Nextを提案する。第一に、ピクセルMVMにおける従来の線形デコーダは、予測器出力の潜在表現がピクセル空間へ線形射影されることを強制し、意味的抽象化との衝突を引き起こす。私たちのStage 1では、条件付き拡散デコーダを提案し、信頼性の高い画像レベルの意味的プライアを注入して意味論と収束性を強化し、ピクセルレベルの忠実性と高レベルな意味的抽象化を橋渡しする。Stage 2では、この空間内で凍結したStage 1のターゲットを予測することで世界知識をさらに学習し、ショートカット学習を軽減する。公開のラベルなしビデオで学習したInternVideo-Nextは、ベンチマークでState-of-the-Artの結果を達成し、一般化されたビデオ表現学習へのスケーラブルな道筋を提供する。
English
Large-scale video-text pretraining achieves strong performance but depends on noisy, synthetic captions with limited semantic coverage, often overlooking implicit world knowledge such as object motion, 3D geometry, and physical cues. In contrast, masked video modeling (MVM) directly exploits spatiotemporal structures but trails text-supervised methods on general tasks. We find this gap arises from overlooked architectural issues: pixel-level reconstruction struggles with convergence and its low-level requirement often conflicts with semantics, while latent prediction often encourages shortcut learning. To address these, we disentangle the traditional encoder-decoder design into an Encoder-Predictor-Decoder (EPD) framework, where the predictor acts as a latent world model, and propose InternVideo-Next, a two-stage pretraining scheme that builds a semantically consistent yet detail-preserving latent space for this world model. First, conventional linear decoder in pixel MVM enforces the predictor output latent to be linearly projected to, thus separable in pixel space, causing the conflict with semantic abstraction. Our Stage 1 proposes a conditional diffusion decoder and injects reliable image-level semantic priors to enhance semantics and convergence, thus bridging pixel-level fidelity with high-level semantic abstraction. Stage 2 further learns world knowledge by predicting frozen Stage 1 targets within this space, mitigating shortcut learning. Trained on public, unlabeled videos, InternVideo-Next achieves state-of-the-art results across benchmarks and provides a scalable path toward general video representation learning.