A Previsão de Incorporações Seguintes Cria Aprendizes Visuais Robustos
Next-Embedding Prediction Makes Strong Vision Learners
December 18, 2025
Autores: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI
Resumo
Inspirados pelo sucesso do pré-treinamento generativo em linguagem natural, questionamos se os mesmos princípios podem produzir aprendizes visuais auto supervisionados robustos. Em vez de treinar modelos para gerar características (features) para uso posterior, nós os treinamos para gerar embeddings que realizam tarefas preditivas diretamente. Este trabalho explora essa mudança de paradigma: da aprendizagem de representações para a aprendizagem de modelos. Especificamente, os modelos aprendem a prever embeddings futuros de patches condicionados aos passados, usando mascaramento causal e "stop gradient", o que denominamos de Autoregressão Preditiva do Próximo Embedding (NEPA). Demonstramos que um Transformer simples, pré-treinado no ImageNet-1k com a previsão do próximo embedding como seu único objetivo de aprendizagem, é eficaz — sem reconstrução de pixels, tokens discretos, perda contrastiva ou cabeças de tarefa específicas. Esta formulação mantém a simplicidade e escalabilidade arquitetônica, sem exigir complexidade de projeto adicional. A NEPA alcança resultados sólidos em diversas tarefas, obtendo 83,8% e 85,3% de acurácia top-1 no ImageNet-1K com backbones ViT-B e ViT-L após ajuste fino (fine-tuning), e transferindo-se efetivamente para segmentação semântica no ADE20K. Acreditamos que o pré-treinamento generativo a partir de embeddings oferece uma alternativa simples, escalável e potencialmente agnóstica à modalidade para a aprendizagem auto supervisionada visual.
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.