次埋め込み予測による強力な視覚学習
Next-Embedding Prediction Makes Strong Vision Learners
December 18, 2025
著者: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI
要旨
自然言語における生成的事前学習の成功に触発され、我々は同じ原理が強力な自己教師あり視覚学習器を生み出しうるかどうかを問う。下流タスク利用のための特徴量を出力するようにモデルを訓練する代わりに、予測タスクを直接実行する埋め込みを生成するように訓練する。本研究は、表現の学習からモデルの学習へのこうした転換を探求する。具体的には、モデルは因果的マスキングと勾配停止を用いて、過去のパッチ埋め込みを条件に将来のパッチ埋め込みを予測することを学習する。我々はこれをNext-Embedding Predictive Autoregression (NEPA) と呼ぶ。ImageNet-1kでNext埋め込み予測を唯一の学習目的として事前学習した単純なTransformerが有効であることを実証する - ピクセル再構成、離散トークン、対照損失、タスク特化ヘッドは一切不要である。この定式化は、追加の設計的複雑さを必要とせず、アーキテクチャの単純性と拡張性を保持する。NEPAは様々なタスクで強力な結果を達成し、ViT-BとViT-Lバックボーンでファインチューニング後、ImageNet-1Kにおいて83.8%、85.3%のtop-1精度を達成し、ADE20Kでのセマンティックセグメンテーションに効果的に転移する。埋め込みからの生成的事前学習が、視覚的自己教師あり学習に対する単純で拡張性があり、潜在的にモダリティ非依存の代替手法を提供すると我々は考える。
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.