Next-Embedding Prediction maakt sterke visuele leersystemen
Next-Embedding Prediction Makes Strong Vision Learners
December 18, 2025
Auteurs: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI
Samenvatting
Geïnspireerd door het succes van generatieve voorafgaande training in natuurlijke taal, onderzoeken we of dezelfde principes krachtige zelfgesuperviseerde visuele leerders kunnen opleveren. In plaats van modellen te trainen om kenmerken voor downstream gebruik uit te voeren, trainen we ze om inbeddingen te genereren om voorspellende taken direct uit te voeren. Dit werk verkent een dergelijke verschuiving van het leren van representaties naar het leren van modellen. Concreet leren modellen toekomstige patch-inbeddingen te voorspellen, geconditioneerd op voorgaande inbeddingen, met behulp van causaal maskeren en stopgradiënt, wat wij Next-Embedding Predictive Autoregression (NEPA) noemen. Wij tonen aan dat een eenvoudige Transformer, vooraf getraind op ImageNet-1k met next embedding prediction als enige leerdoel, effectief is - zonder pixelreconstructie, discrete tokens, contrastief verlies of taakspecifieke heads. Deze formulering behoudt architectonische eenvoud en schaalbaarheid, zonder extra ontwerpcomplexiteit. NEPA behaalt sterke resultaten over taken heen, met een top-1 nauwkeurigheid van 83,8% en 85,3% op ImageNet-1K met ViT-B- en ViT-L-backbones na fine-tuning, en transfereert effectief naar semantische segmentatie op ADE20K. Wij geloven dat generatieve voorafgaande training vanuit inbeddingen een eenvoudig, schaalbaar en potentieel modaliteits-agnostisch alternatief biedt voor visuele zelfgesuperviseerde learning.
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.