InternVideo-Next: На пути к универсальным фоновым моделям для видео без видеотекстового контроля
InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
December 1, 2025
Авторы: Chenting Wang, Yuhan Zhu, Yicheng Xu, Jiange Yang, Ziang Yan, Yali Wang, Yi Wang, Limin Wang
cs.AI
Аннотация
Крупномасштабное предварительное обучение на видео-текстовых данных демонстрирует высокую производительность, но зависит от зашумленных синтетических описаний с ограниченным семантическим охватом, часто упуская имплицитные знания о мире, такие как движение объектов, 3D-геометрия и физические признаки. В отличие от этого, маскированное видео-моделирование (MVM) непосредственно использует пространственно-временные структуры, но уступает тексто-контролируемым методам в общих задачах. Мы обнаружили, что этот разрыв возникает из-за упущенных архитектурных проблем: реконструкция на уровне пикселей затруднена с точки зрения сходимости, а её низкоуровневые требования часто конфликтуют с семантикой, в то время как латентное предсказание часто поощряет обучение с использованием «коротких путей». Для решения этих проблем мы разделяем традиционную архитектуру «кодировщик-декодировщик» на структуру «Кодировщик-Предиктор-Декодировщик» (EPD), где предиктор выступает в роли латентной модели мира, и предлагаем InternVideo-Next — двухэтапную схему предобучения, которая создает семантически согласованное и сохраняющее детали латентное пространство для этой модели мира. Во-первых, традиционный линейный декодер в пиксельном MVM заставляет выходной латентный вектор предиктора проецироваться линейно и, следовательно, быть разделимым в пиксельном пространстве, что вызывает конфликт с семантической абстракцией. Наш Этап 1 предлагает условный диффузионный декодер и внедряет надежные априорные семантические знания на уровне изображений для улучшения семантики и сходимости, тем самым связывая точность на уровне пикселей с высокоуровневой семантической абстракцией. Этап 2 дополнительно изучает знания о мире, предсказывая замороженные цели Этапа 1 в этом пространстве, смягчая проблему обучения «коротким путям». Обученная на публичных немаркированных видео, InternVideo-Next достигает передовых результатов на различных бенчмарках и предлагает масштабируемый путь к обучению общим видео-представлениям.
English
Large-scale video-text pretraining achieves strong performance but depends on noisy, synthetic captions with limited semantic coverage, often overlooking implicit world knowledge such as object motion, 3D geometry, and physical cues. In contrast, masked video modeling (MVM) directly exploits spatiotemporal structures but trails text-supervised methods on general tasks. We find this gap arises from overlooked architectural issues: pixel-level reconstruction struggles with convergence and its low-level requirement often conflicts with semantics, while latent prediction often encourages shortcut learning. To address these, we disentangle the traditional encoder-decoder design into an Encoder-Predictor-Decoder (EPD) framework, where the predictor acts as a latent world model, and propose InternVideo-Next, a two-stage pretraining scheme that builds a semantically consistent yet detail-preserving latent space for this world model. First, conventional linear decoder in pixel MVM enforces the predictor output latent to be linearly projected to, thus separable in pixel space, causing the conflict with semantic abstraction. Our Stage 1 proposes a conditional diffusion decoder and injects reliable image-level semantic priors to enhance semantics and convergence, thus bridging pixel-level fidelity with high-level semantic abstraction. Stage 2 further learns world knowledge by predicting frozen Stage 1 targets within this space, mitigating shortcut learning. Trained on public, unlabeled videos, InternVideo-Next achieves state-of-the-art results across benchmarks and provides a scalable path toward general video representation learning.