ChatPaper.aiChatPaper

La Predicción de Incrustaciones Vecinas Hace Fuertes a los Aprendices Visuales

Next-Embedding Prediction Makes Strong Vision Learners

December 18, 2025
Autores: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI

Resumen

Inspirados por el éxito de la preentrenación generativa en lenguaje natural, nos preguntamos si los mismos principios pueden producir aprendices visuales auto-supervisados sólidos. En lugar de entrenar modelos para generar características destinadas a uso posterior, los entrenamos para generar *embeddings* que realicen tareas predictivas directamente. Este trabajo explora dicho cambio: de aprender representaciones a aprender modelos. Específicamente, los modelos aprenden a predecir *embeddings* de parches futuros condicionados a *embeddings* pasados, utilizando enmascaramiento causal y detención del gradiente, lo que denominamos Autoregresión Predictiva del Siguiente *Embedding* (NEPA, por sus siglas en inglés). Demostramos que un Transformer simple, preentrenado en ImageNet-1k con la predicción del siguiente *embedding* como único objetivo de aprendizaje, es efectivo, sin necesidad de reconstrucción de píxeles, tokens discretos, pérdida contrastiva o cabezales específicos por tarea. Esta formulación conserva la simplicidad arquitectónica y la escalabilidad, sin requerir complejidad de diseño adicional. NEPA logra resultados sólidos en diversas tareas, alcanzando un 83.8% y un 85.3% de precisión *top-1* en ImageNet-1K con arquitecturas *backbone* ViT-B y ViT-L tras el ajuste fino, y transfiriéndose efectivamente a la segmentación semántica en ADE20K. Creemos que la preentrenación generativa a partir de *embeddings* ofrece una alternativa simple, escalable y potencialmente agnóstica a la modalidad para el aprendizaje visual auto-supervisado.
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.
PDF512December 20, 2025