Apprentissage par prédiction de l'image suivante : la modélisation vidéo autorégressive encode des représentations efficaces
Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
December 24, 2025
papers.authors: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
cs.AI
papers.abstract
Les progrès récents dans le pré-entraînement de modèles fondationnels généraux ont considérablement amélioré les performances sur diverses tâches en aval. Si les modèles génératifs autorégressifs (AR) comme GPT ont révolutionné le TALN, la plupart des méthodes de pré-entraînement génératif visuel reposent encore sur la modélisation masquée de type BERT, qui néglige souvent l'information temporelle essentielle à l'analyse vidéo. Les rares méthodes autorégressives existantes pour le pré-entraînement visuel souffrent de problèmes tels qu'une localisation sémantique imprécise et une mauvaise qualité de génération, conduisant à une sémantique déficiente. Dans ce travail, nous proposons NExT-Vid, un nouveau cadre de pré-entraînement génératif visuel autorégressif qui utilise la prédiction masquée de l'image suivante pour modéliser conjointement les images et les vidéos. NExT-Vid introduit un prédicteur autorégressif à contexte isolé pour découpler la représentation sémantique du décodage cible, et un décodeur à appariement de flux conditionné pour améliorer la qualité et la diversité de la génération. Grâce au pré-entraînement par appariement de flux à contexte isolé, notre approche obtient des représentations robustes. Des expériences approfondies sur des modèles pré-entraînés à grande échelle démontrent que notre méthode surpasse systématiquement les précédentes méthodes de pré-entraînement génératif pour l'apprentissage de représentations visuelles via un sondage attentionnel en classification aval.
English
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.