ChatPaper.aiChatPaper

다음 임베딩 예측이 강력한 시각 학습자를 만든다

Next-Embedding Prediction Makes Strong Vision Learners

December 18, 2025
저자: Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
cs.AI

초록

자연어 분야에서 생성적 사전훈련의 성공에 영감을 받아, 동일한 원리가 강력한 자기 지도 시각 학습기를 만들어낼 수 있는지 질문합니다. 하위 작업 사용을 위한 특징을 출력하도록 모델을 훈련시키는 대신, 예측 작업을 직접 수행하기 위한 임베딩을 생성하도록 훈련합니다. 본 연구는 표현 학습에서 모델 학습으로의 이러한 전환을 탐구합니다. 구체적으로, 모델은 인과적 마스킹과 경사 정지를 사용하여 과거 임베딩을 조건으로 한 미래 패치 임베딩을 예측하는 방법을 학습하며, 이를 Next-Embedding Predictive Autoregression(NEPA)이라고 부릅니다. 우리는 ImageNet-1k에서 다음 임베딩 예측을 유일한 학습 목표로 사전훈련된 간단한 Transformer가 효과적임을 입증합니다. 픽셀 재구성, 이산 토큰, 대조 손실 또는 작업별 헤드가 필요하지 않습니다. 이 형식은 추가적인 설계 복잡성을 요구하지 않으면서 아키텍처 단순성과 확장성을 유지합니다. NEPA는 다양한 작업에서 강력한 결과를 달성하며, ViT-B 및 ViT-L 백본을 사용한 미세 조정 후 ImageNet-1K에서 83.8%, 85.3%의 Top-1 정확도를 기록하고 ADE20K의 의미론적 분할 작업으로 효과적으로 전이됩니다. 우리는 임베딩으로부터의 생성적 사전훈련이 시각 자기 지도 학습을 위한 간단하고 확장 가능하며 잠재적으로 모달리티에 구애받지 않는 대안을 제공한다고 믿습니다.
English
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.
PDF512December 20, 2025