ChatPaper.aiChatPaper

Leren van volgende-frame-voorspelling: Autoregressieve videomodellering codeert effectieve representaties

Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

December 24, 2025
Auteurs: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
cs.AI

Samenvatting

Recente vooruitgang in het vooraf trainen van algemene foundation-modellen heeft de prestaties aanzienlijk verbeterd voor uiteenlopende downstreamtaken. Hoewel autoregressieve (AR) generatieve modellen zoals GPT een revolutie teweeg hebben gebracht in de NLP, blijven de meeste methoden voor visueel generatief vooraf trainen vertrouwen op BERT-geïnspireerde gemaskeerde modellering, waarbij de voor video-analyse essentiële temporele informatie vaak wordt verwaarloosd. De weinige bestaande autoregressieve methoden voor visueel vooraf trainen kampen met problemen zoals onnauwkeurige semantische lokalisatie en slechte generatiekwaliteit, wat leidt tot zwakke semantiek. In dit werk stellen we NExT-Vid voor, een nieuw autoregressief raamwerk voor visueel generatief vooraf trainen dat gemaskeerde volgende-frame-voorspelling gebruikt om afbeeldingen en video's gezamenlijk te modelleren. NExT-Vid introduceert een context-geïsoleerde autoregressieve predictor om semantische representatie te ontkoppelen van targetdecodering, en een geconditioneerde flow-matching-decoder om de generatiekwaliteit en -diversiteit te verbeteren. Door context-geïsoleerde flow-matching-pretraining bereikt onze aanpak sterke representaties. Uitgebreide experimenten met grootschalige voorgetrainde modellen tonen aan dat onze voorgestelde methode consistent beter presteert dan eerdere generatieve pretrainingsmethoden voor visuele representatieleren via aandachtige probing in downstreamclassificatie.
English
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.
PDF71December 26, 2025