La Previsione di Next-Embedding Crea Forti Apprenditori Visivi
Next-Embedding Prediction Makes Strong Vision Learners
December 18, 2025
Autori: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI
Abstract
Ispirati dal successo del pretraining generativo nel linguaggio naturale, ci chiediamo se gli stessi principi possano produrre efficaci modelli di apprendimento visivo auto-supervisionato. Invece di addestrare modelli per produrre feature da utilizzare in fasi successive, li addestriamo a generare embedding per eseguire direttamente compiti predittivi. Questo lavoro esplora tale transizione dall'apprendimento di rappresentazioni all'apprendimento di modelli. Nello specifico, i modelli apprendono a predire gli embedding futuri di patch condizionati a quelli passati, utilizzando mascheramento causale e stop gradient, approccio che definiamo Autoregressione Predittiva del Prossimo Embedding (NEPA). Dimostriamo che un semplice Transformer addestrato su ImageNet-1k con la predizione del prossimo embedding come unico obiettivo di apprendimento risulta efficace - senza ricostruzione di pixel, token discreti, loss contrastiva o teste task-specific. Questa formulazione mantiene semplicità architetturale e scalabilità, senza richiedere complessità progettuali aggiuntive. NEPA ottiene risultati solidi across task, raggiungendo accuratezza top-1 dell'83.8% e 85.3% su ImageNet-1K rispettivamente con backbone ViT-B e ViT-L dopo fine-tuning, e trasferendosi efficacemente alla segmentazione semantica su ADE20K. Riteniamo che il pretraining generativo da embedding fornisca un'alternativa semplice, scalabile e potenzialmente modality-agnostic per l'apprendimento auto-supervisionato visivo.
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.