인터비디오-넥스트: 비디오-텍스트 감독 없이 범용 비디오 파운데이션 모델을 향하여
InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
December 1, 2025
저자: Chenting Wang, Yuhan Zhu, Yicheng Xu, Jiange Yang, Ziang Yan, Yali Wang, Yi Wang, Limin Wang
cs.AI
초록
대규모 비디오-텍스트 사전 학습은 강력한 성능을 달성하지만 의미론적 범위가 제한된 노이즈가 많은 합성 캡션에 의존하며, 종종 객체 운동, 3D 기하학, 물리적 단서와 같은 암묵적인 세계 지식을 간과합니다. 이에 반해 마스크된 비디오 모델링(MVM)은 시공간 구조를 직접 활용하지만 일반 작업에서 텍스트 지도 방법들보다 뒤처집니다. 우리는 이러한 격차가 간과된 구조적 문제에서 비롯됨을 발견했습니다: 픽셀 수준 재구성은 수렴에 어려움을 겪고 그 낮은 수준의 요구사항은 의미론과 종종 충돌하는 반면, 잠재적 예측은 종종 단축 학습을 유도합니다. 이를 해결하기 위해 우리는 기존 인코더-디코더 설계를 Encoder-Predictor-Decoder(EPD) 프레임워크로 분리하며, 여기서 예측기는 잠재적 세계 모델 역할을 하고, 이 세계 모델을 위해 의미론적으로 일관되면서도 세부 사항을 보존하는 잠재 공간을 구축하는 2단계 사전 학습 방식인 InternVideo-Next를 제안합니다. 첫째, 픽셀 MVM의 기존 선형 디코더는 예측기 출력 잠재 변수가 픽셀 공간으로 선형 투영되어 분리 가능하도록 강제하므로 의미론적 추상화와 충돌을 일으킵니다. 우리의 1단계는 조건부 확산 디코더를 제안하고 신뢰할 수 있는 이미지 수준 의미론적 사전 지식을 주입하여 의미론과 수렴성을 향상시켜 픽셀 수준 정확도와 높은 수준의 의미론적 추상화를 연결합니다. 2단계는 이 공간 내에서 고정된 1단계 목표를 예측함으로써 세계 지식을 추가로 학습하며 단축 학습을 완화합니다. 공개된 비레이블 비디오로 학습된 InternVideo-Next는 다양한 벤치마크에서 최첨단 결과를 달성하며 일반적인 비디오 표현 학습을 위한 확장 가능한 경로를 제공합니다.
English
Large-scale video-text pretraining achieves strong performance but depends on noisy, synthetic captions with limited semantic coverage, often overlooking implicit world knowledge such as object motion, 3D geometry, and physical cues. In contrast, masked video modeling (MVM) directly exploits spatiotemporal structures but trails text-supervised methods on general tasks. We find this gap arises from overlooked architectural issues: pixel-level reconstruction struggles with convergence and its low-level requirement often conflicts with semantics, while latent prediction often encourages shortcut learning. To address these, we disentangle the traditional encoder-decoder design into an Encoder-Predictor-Decoder (EPD) framework, where the predictor acts as a latent world model, and propose InternVideo-Next, a two-stage pretraining scheme that builds a semantically consistent yet detail-preserving latent space for this world model. First, conventional linear decoder in pixel MVM enforces the predictor output latent to be linearly projected to, thus separable in pixel space, causing the conflict with semantic abstraction. Our Stage 1 proposes a conditional diffusion decoder and injects reliable image-level semantic priors to enhance semantics and convergence, thus bridging pixel-level fidelity with high-level semantic abstraction. Stage 2 further learns world knowledge by predicting frozen Stage 1 targets within this space, mitigating shortcut learning. Trained on public, unlabeled videos, InternVideo-Next achieves state-of-the-art results across benchmarks and provides a scalable path toward general video representation learning.