Next-Embedding-Vorhersage macht starke visuelle Lernmodelle
Next-Embedding Prediction Makes Strong Vision Learners
December 18, 2025
papers.authors: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI
papers.abstract
Angeregt durch die Erfolge des generativen Vorabtrainings im Bereich der natürlichen Sprache, stellen wir die Frage, ob dieselben Prinzipien auch starke selbstüberwachte visuelle Lernverfahren hervorbringen können. Anstatt Modelle so zu trainieren, dass sie Merkmale für die nachgelagerte Verwendung ausgeben, trainieren wir sie, um Einbettungen zu generieren, die direkt Vorhersageaufgaben durchführen. Diese Arbeit untersucht einen solchen Wechsel vom Erlernen von Repräsentationen zum Erlernen von Modellen. Konkret lernen Modelle, zukünftige Patch-Einbettungen auf der Grundlage vergangener Einbettungen vorherzusagen, wobei kausale Maskierung und Stop-Gradient zum Einsatz kommen, was wir als Next-Embedding Predictive Autoregression (NEPA) bezeichnen. Wir zeigen, dass ein einfacher Transformer, der auf ImageNet-1k mit Next-Embedding-Prediction als einzigem Lernziel vortrainiert wurde, effektiv ist – ohne Pixelrekonstruktion, diskrete Tokens, kontrastiven Verlust oder aufgabenspezifische Köpfe. Diese Formulierung bewahrt architektonische Einfachheit und Skalierbarkeit, ohne zusätzliche Designkomplexität zu erfordern. NEPA erzielt starke Ergebnisse über verschiedene Aufgaben hinweg und erreicht 83,8 % bzw. 85,3 % Top-1-Genauigkeit auf ImageNet-1K mit ViT-B- und ViT-L-Backbones nach Feinabstimmung und überträgt effektiv auf semantische Segmentierung mit ADE20K. Wir sind der Ansicht, dass generatives Vorabtraining auf der Grundlage von Einbettungen eine einfache, skalierbare und potenziell modalitätsagnostische Alternative zum visuellen selbstüberwachten Lernen darstellt.
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.