ChatPaper.aiChatPaper

Imparare dalla Predizione del Frame Successivo: la Modellazione Video Autoregressiva Codifica Rappresentazioni Efficaci

Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

December 24, 2025
Autori: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
cs.AI

Abstract

I recenti progressi nei modelli fondazionali generali preaddestrati hanno migliorato significativamente le prestazioni su un'ampia gamma di task downstream. Sebbene i modelli generativi autoregressivi (AR) come GPT abbiano rivoluzionato l'NLP, la maggior parte dei metodi di preaddestramento generativo visivo si basa ancora sulla modellazione mascherata in stile BERT, che spesso trascura le informazioni temporali essenziali per l'analisi video. I pochi metodi di preaddestramento visivo autoregressivo esistenti soffrono di problemi come localizzazione semantica imprecisa e scarsa qualità di generazione, portando a una semantica povera. In questo lavoro, proponiamo NExT-Vid, un nuovo framework di preaddestramento generativo visivo autoregressivo che utilizza la previsione mascherata del frame successivo per modellare congiuntamente immagini e video. NExT-Vid introduce un predittore autoregressivo a contesto isolato per disaccoppiare la rappresentazione semantica dalla decodifica del target, e un decodificatore a flusso condizionato per migliorare la qualità e la diversità della generazione. Attraverso il preaddestramento con flusso condizionato a contesto isolato, il nostro approccio raggiunge rappresentazioni solide. Esperimenti estensivi su modelli preaddestrati su larga scala dimostrano che il nostro metodo proposto supera costantemente i precedenti metodi di preaddestramento generativo per l'apprendimento di rappresentazioni visive tramite probing attento nella classificazione downstream.
English
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.
PDF132February 8, 2026