Rigenerare Image-GPT come potenti apprenditori di rappresentazioni visive
Rejuvenating image-GPT as Strong Visual Representation Learners
December 4, 2023
Autori: Sucheng Ren, Zeyu Wang, Hongru Zhu, Junfei Xiao, Alan Yuille, Cihang Xie
cs.AI
Abstract
Questo articolo migliora l'image-GPT (iGPT), uno dei lavori pionieristici che introduce il pre-addestramento autoregressivo per prevedere i pixel successivi nell'apprendimento di rappresentazioni visive. Vengono apportate due modifiche semplici ma essenziali. Innanzitutto, spostiamo l'obiettivo di previsione dai pixel grezzi ai token semantici, consentendo una comprensione di livello superiore del contenuto visivo. In secondo luogo, integriamo la modellazione autoregressiva istruendo il modello a prevedere non solo i token successivi ma anche i token visibili. Questa pipeline è particolarmente efficace quando i token semantici sono codificati da modelli addestrati in modo discriminativo, come CLIP. Introduciamo questo approccio innovativo come D-iGPT. Esperimenti estesi dimostrano che D-iGPT eccelle come un forte apprenditore di rappresentazioni visive: un risultato degno di nota di D-iGPT è la sua prestazione convincente sul dataset ImageNet-1K — addestrando su dataset pubblicamente disponibili, D-iGPT raggiunge un'accuratezza top-1 del 89,5% con un semplice modello ViT-Large. Questo modello mostra anche una forte generalizzazione sul task downstream e robustezza su campioni fuori distribuzione. Il codice è disponibile all'indirizzo https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
English
This paper enhances image-GPT (iGPT), one of the pioneering works that
introduce autoregressive pretraining to predict next pixels for visual
representation learning. Two simple yet essential changes are made. First, we
shift the prediction target from raw pixels to semantic tokens, enabling a
higher-level understanding of visual content. Second, we supplement the
autoregressive modeling by instructing the model to predict not only the next
tokens but also the visible tokens. This pipeline is particularly effective
when semantic tokens are encoded by discriminatively trained models, such as
CLIP. We introduce this novel approach as D-iGPT. Extensive experiments
showcase that D-iGPT excels as a strong learner of visual representations: A
notable achievement of D-iGPT is its compelling performance on the ImageNet-1K
dataset -- by training on publicly available datasets, D-iGPT achieves 89.5\%
top-1 accuracy with a vanilla ViT-Large model. This model also shows strong
generalization on the downstream task and robustness on out-of-distribution
samples. Code is avaiable at
https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.