Aprendiendo de la Predicción del Siguiente Fotograma: El Modelado Autoregresivo de Video Codifica Representaciones Efectivas
Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
December 24, 2025
Autores: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
cs.AI
Resumen
Los recientes avances en el preentrenamiento de modelos base generales han mejorado significativamente el rendimiento en diversas tareas posteriores. Si bien los modelos generativos autorregresivos (AR) como GPT han revolucionado el procesamiento del lenguaje natural, la mayoría de los métodos de preentrenamiento generativo visual aún se basan en el modelado enmascarado al estilo BERT, que a menudo ignora la información temporal esencial para el análisis de video. Los pocos métodos existentes de preentrenamiento visual autorregresivo adolecen de problemas como la localización semántica imprecisa y la mala calidad de generación, lo que conduce a una semántica deficiente. En este trabajo, proponemos NExT-Vid, un novedoso marco de preentrenamiento generativo visual autorregresivo que utiliza la predicción enmascarada del siguiente fotograma para modelar conjuntamente imágenes y videos. NExT-Vid introduce un predictor autorregresivo de contexto aislado para desacoplar la representación semántica de la decodificación objetivo, y un decodificador de correspondencia de flujo condicionado para mejorar la calidad y diversidad de la generación. Mediante el preentrenamiento de correspondencia de flujo de contexto aislado, nuestro enfoque logra representaciones sólidas. Experimentos exhaustivos con modelos preentrenados a gran escala demuestran que nuestro método propuesto supera consistentemente a los métodos anteriores de preentrenamiento generativo para el aprendizaje de representaciones visuales mediante sondeo atento en la clasificación posterior.
English
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.