Rigenerare Image-GPT come potenti apprenditori di rappresentazioni visive

Abstract

Questo articolo migliora l'image-GPT (iGPT), uno dei lavori pionieristici che introduce il pre-addestramento autoregressivo per prevedere i pixel successivi nell'apprendimento di rappresentazioni visive. Vengono apportate due modifiche semplici ma essenziali. Innanzitutto, spostiamo l'obiettivo di previsione dai pixel grezzi ai token semantici, consentendo una comprensione di livello superiore del contenuto visivo. In secondo luogo, integriamo la modellazione autoregressiva istruendo il modello a prevedere non solo i token successivi ma anche i token visibili. Questa pipeline è particolarmente efficace quando i token semantici sono codificati da modelli addestrati in modo discriminativo, come CLIP. Introduciamo questo approccio innovativo come D-iGPT. Esperimenti estesi dimostrano che D-iGPT eccelle come un forte apprenditore di rappresentazioni visive: un risultato degno di nota di D-iGPT è la sua prestazione convincente sul dataset ImageNet-1K — addestrando su dataset pubblicamente disponibili, D-iGPT raggiunge un'accuratezza top-1 del 89,5% con un semplice modello ViT-Large. Questo modello mostra anche una forte generalizzazione sul task downstream e robustezza su campioni fuori distribuzione. Il codice è disponibile all'indirizzo https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.

English

This paper enhances image-GPT (iGPT), one of the pioneering works that introduce autoregressive pretraining to predict next pixels for visual representation learning. Two simple yet essential changes are made. First, we shift the prediction target from raw pixels to semantic tokens, enabling a higher-level understanding of visual content. Second, we supplement the autoregressive modeling by instructing the model to predict not only the next tokens but also the visible tokens. This pipeline is particularly effective when semantic tokens are encoded by discriminatively trained models, such as CLIP. We introduce this novel approach as D-iGPT. Extensive experiments showcase that D-iGPT excels as a strong learner of visual representations: A notable achievement of D-iGPT is its compelling performance on the ImageNet-1K dataset -- by training on publicly available datasets, D-iGPT achieves 89.5\% top-1 accuracy with a vanilla ViT-Large model. This model also shows strong generalization on the downstream task and robustness on out-of-distribution samples. Code is avaiable at https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.

Rigenerare Image-GPT come potenti apprenditori di rappresentazioni visive

Rejuvenating image-GPT as Strong Visual Representation Learners

Abstract

Support