Lernen aus der nächsten Bildvorhersage: Autoregressive Videomodellierung kodiert effektive Repräsentationen
Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
December 24, 2025
papers.authors: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
cs.AI
papers.abstract
Jüngste Fortschritte beim Vortrainieren allgemeiner Basismodelle haben die Leistung bei verschiedenen nachgelagerten Aufgaben erheblich verbessert. Während autoregressive (AR) generative Modelle wie GPT das NLP revolutioniert haben, stützen sich die meisten Methoden des visuellen generativen Vortrainings immer noch auf BERT-artige Maskierungsmodellierung, die oft die für die Videoanalyse wesentliche zeitliche Information vernachlässigt. Die wenigen existierenden autoregressiven visuellen Vortrainingsmethoden leiden unter Problemen wie ungenauer semantischer Lokalisierung und schlechter Generierungsqualität, was zu schwacher Semantik führt. In dieser Arbeit schlagen wir NExT-Vid vor, ein neuartiges autoregressives visuelles generatives Vortrainingsframework, das maskierte Next-Frame-Prädiktion nutzt, um Bilder und Videos gemeinsam zu modellieren. NExT-Vid führt einen kontextisolierten autoregressiven Prädiktor ein, um semantische Repräsentation von der Zieldecodierung zu entkoppeln, und einen konditionierten Flow-Matching-Decoder, um die Generierungsqualität und -vielfalt zu verbessern. Durch kontextisoliertes Flow-Matching-Vortraining erzielt unser Ansatz starke Repräsentationen. Umfangreiche Experimente mit großskaligen vortrainierten Modeln zeigen, dass unsere Methode frühere generative Vortrainingsmethoden für visuelles Repräsentationslernen durch aufmerksames Probing in der nachgelagerten Klassifikation konsequent übertrifft.
English
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.