Aprendizado com a Previsão do Próximo Quadro: A Modelagem Autoregressiva de Vídeo Codifica Representações Eficazes

Resumo

Os recentes avanços no pré-treinamento de modelos de base gerais melhoraram significativamente o desempenho em diversas tarefas subsequentes. Embora modelos generativos autorregressivos (AR) como o GPT tenham revolucionado o PLN, a maioria dos métodos de pré-treinamento generativo visual ainda depende da modelagem mascarada no estilo BERT, que frequentemente desconsidera a informação temporal essencial para a análise de vídeos. Os poucos métodos de pré-treinamento visual autorregressivo existentes sofrem de problemas como localização semântica imprecisa e baixa qualidade de geração, resultando em semântica deficiente. Neste trabalho, propomos o NExT-Vid, uma nova estrutura de pré-treinamento generativo visual autorregressivo que utiliza a previsão mascarada do quadro seguinte para modelar conjuntamente imagens e vídeos. O NExT-Vid introduz um preditor autorregressivo de contexto isolado para desacoplar a representação semântica da decodificação do alvo, e um decodificador de correspondência de fluxo condicionado para melhorar a qualidade e a diversidade da geração. Através do pré-treinamento de correspondência de fluxo com contexto isolado, nossa abordagem alcança representações robustas. Experimentos extensivos com modelos de grande escala pré-treinados demonstram que nosso método proposto supera consistentemente os métodos de pré-treinamento generativo anteriores para a aprendizagem de representação visual por meio de sondagem atenta na classificação de tarefas subsequentes.

English

Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.

Aprendizado com a Previsão do Próximo Quadro: A Modelagem Autoregressiva de Vídeo Codifica Representações Eficazes

Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

Resumo

Support