La prédiction d'incorporations suivantes forge des systèmes de vision artificielle performants
Next-Embedding Prediction Makes Strong Vision Learners
December 18, 2025
papers.authors: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI
papers.abstract
Inspirés par le succès du pré-entraînement génératif en traitement du langage naturel, nous nous demandons si les mêmes principes peuvent produire des apprenants visuels auto-supervisés performants. Au lieu d’entraîner des modèles à produire des caractéristiques pour une utilisation en aval, nous les entraînons à générer des embeddings pour effectuer directement des tâches prédictives. Ce travail explore un tel passage de l’apprentissage de représentations à l’apprentissage de modèles. Concrètement, les modèles apprennent à prédire les embeddings de patchs futurs conditionnés par ceux du passé, en utilisant un masquage causal et un arrêt du gradient, approche que nous nommons Autoregression Prédictive du Prochain Embedding (APPE). Nous démontrons qu’un simple Transformer pré-entraîné sur ImageNet-1k avec la prédiction du prochain embedding comme unique objectif d’apprentissage est efficace – sans reconstruction de pixels, tokens discrets, perte contrastive ou têtes spécifiques aux tâches. Cette formulation préserve la simplicité et l’évolutivité architecturales, sans nécessiter de complexité de conception supplémentaire. APPE obtient des résultats solides sur diverses tâches, atteignant une précision top-1 de 83,8 % et 85,3 % sur ImageNet-1K avec des backbones ViT-B et ViT-L après ajustement fin, et se transfère efficacement à la segmentation sémantique sur ADE20K. Nous pensons que le pré-entraînement génératif à partir d’embeddings offre une alternative simple, évolutive et potentiellement agnostique à la modalité pour l’apprentissage auto-supervisé visuel.
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.