ChatPaper.aiChatPaper

InternVideo-Next: Hacia Modelos Fundacionales Generales de Video sin Supervisión de Video-Texto

InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision

December 1, 2025
Autores: Chenting Wang, Yuhan Zhu, Yicheng Xu, Jiange Yang, Ziang Yan, Yali Wang, Yi Wang, Limin Wang
cs.AI

Resumen

El preentrenamiento a gran escala de vídeo-texto logra un rendimiento sólido, pero depende de subtítulos sintéticos y ruidosos con cobertura semántica limitada, que a menudo pasan por alto conocimiento implícito del mundo como el movimiento de objetos, la geometría 3D y las pistas físicas. Por el contrario, el modelado de vídeo enmascarado (MVM) explota directamente las estructuras espacio-temporales, pero se queda por detrás de los métodos supervisados por texto en tareas generales. Descubrimos que esta brecha surge de problemas arquitectónicos pasados por alto: la reconstrucción a nivel de píxeles lucha con la convergencia y su requisito de bajo nivel a menudo entra en conflicto con la semántica, mientras que la predicción latente a menudo fomenta el aprendizaje por atajos. Para abordar esto, separamos el diseño tradicional codificador-decodificador en un marco Codificador-Predictor-Decodificador (EPD), donde el predictor actúa como un modelo de mundo latente, y proponemos InternVideo-Next, un esquema de preentrenamiento en dos etapas que construye un espacio latente semánticamente consistente pero que preserva detalles para este modelo de mundo. Primero, el decodificador lineal convencional en MVM de píxeles obliga a que el latente de salida del predictor se proyecte linealmente a, y por lo tanto sea separable en, el espacio de píxeles, causando el conflicto con la abstracción semántica. Nuestra Etapa 1 propone un decodificador de difusión condicional e inyecta previos semánticos confiables a nivel de imagen para mejorar la semántica y la convergencia, tendiendo así un puente entre la fidelidad a nivel de píxel y la abstracción semántica de alto nivel. La Etapa 2 aprende aún más conocimiento del mundo prediciendo objetivos congelados de la Etapa 1 dentro de este espacio, mitigando el aprendizaje por atajos. Entrenado en vídeos públicos y sin etiquetar, InternVideo-Next logra resultados de vanguardia en diversos benchmarks y proporciona un camino escalable hacia el aprendizaje de representaciones de vídeo generales.
English
Large-scale video-text pretraining achieves strong performance but depends on noisy, synthetic captions with limited semantic coverage, often overlooking implicit world knowledge such as object motion, 3D geometry, and physical cues. In contrast, masked video modeling (MVM) directly exploits spatiotemporal structures but trails text-supervised methods on general tasks. We find this gap arises from overlooked architectural issues: pixel-level reconstruction struggles with convergence and its low-level requirement often conflicts with semantics, while latent prediction often encourages shortcut learning. To address these, we disentangle the traditional encoder-decoder design into an Encoder-Predictor-Decoder (EPD) framework, where the predictor acts as a latent world model, and propose InternVideo-Next, a two-stage pretraining scheme that builds a semantically consistent yet detail-preserving latent space for this world model. First, conventional linear decoder in pixel MVM enforces the predictor output latent to be linearly projected to, thus separable in pixel space, causing the conflict with semantic abstraction. Our Stage 1 proposes a conditional diffusion decoder and injects reliable image-level semantic priors to enhance semantics and convergence, thus bridging pixel-level fidelity with high-level semantic abstraction. Stage 2 further learns world knowledge by predicting frozen Stage 1 targets within this space, mitigating shortcut learning. Trained on public, unlabeled videos, InternVideo-Next achieves state-of-the-art results across benchmarks and provides a scalable path toward general video representation learning.
PDF140December 3, 2025