Предсказание следующих эмбеддингов создает сильные визуальные модели
Next-Embedding Prediction Makes Strong Vision Learners
December 18, 2025
Авторы: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI
Аннотация
Вдохновленные успехом генеративного предварительного обучения в обработке естественного языка, мы задаемся вопросом, могут ли те же принципы дать сильные самообучающиеся модели для компьютерного зрения. Вместо обучения моделей генерировать признаки для последующего использования мы обучаем их генерировать эмбеддинги для непосредственного выполнения прогностических задач. Данная работа исследует такой переход от обучения представлений к обучению моделей. В частности, модели учатся предсказывать эмбеддинги будущих патчей на основе прошлых, используя каузальное маскирование и остановку градиента, что мы называем Авторегрессионным Предсказанием Следующего Эмбеддинга (NEPA). Мы демонстрируем, что простая архитектура Transformer, предварительно обученная на ImageNet-1k с предсказанием следующего эмбеддинга в качестве единственной задачи, эффективна — без реконструкции пикселей, дискретных токенов, контрастных функций потерь или специализированных голов для конкретных задач. Данная формулировка сохраняет архитектурную простоту и масштабируемость, не требуя дополнительной сложности проектирования. NEPA показывает высокие результаты в различных задачах, достигая точности 83.8% и 85.3% Top-1 на ImageNet-1K с бэкбонами ViT-B и ViT-L после дообучения, а также эффективно переносится на задачу семантической сегментации на ADE20K. Мы полагаем, что генеративное предварительное обучение на эмбеддингах предоставляет простую, масштабируемую и потенциально модально-независимую альтернативу для самообучения в компьютерном зрении.
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.