ChatPaper.aiChatPaper

Het revitaliseren van image-GPT als krachtige visuele representatieleerders

Rejuvenating image-GPT as Strong Visual Representation Learners

December 4, 2023
Auteurs: Sucheng Ren, Zeyu Wang, Hongru Zhu, Junfei Xiao, Alan Yuille, Cihang Xie
cs.AI

Samenvatting

Dit artikel verbetert image-GPT (iGPT), een van de baanbrekende werken die autoregressieve voorafgaande training introduceren om volgende pixels te voorspellen voor visuele representatieleer. Er worden twee eenvoudige maar essentiële wijzigingen aangebracht. Ten eerste verschuiven we het voorspeldoel van ruwe pixels naar semantische tokens, wat een hoger niveau van begrip van visuele inhoud mogelijk maakt. Ten tweede vullen we het autoregressieve model aan door het model te instrueren om niet alleen de volgende tokens te voorspellen, maar ook de zichtbare tokens. Deze pijplijn is bijzonder effectief wanneer semantische tokens worden gecodeerd door discriminerend getrainde modellen, zoals CLIP. We introduceren deze nieuwe aanpak als D-iGPT. Uitgebreide experimenten tonen aan dat D-iGPT uitblinkt als een sterke leerder van visuele representaties: een opmerkelijk resultaat van D-iGPT is de overtuigende prestatie op de ImageNet-1K dataset -- door training op publiek beschikbare datasets bereikt D-iGPT een top-1 nauwkeurigheid van 89,5% met een standaard ViT-Large model. Dit model toont ook sterke generalisatie op de downstream taak en robuustheid op out-of-distribution voorbeelden. De code is beschikbaar op https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
English
This paper enhances image-GPT (iGPT), one of the pioneering works that introduce autoregressive pretraining to predict next pixels for visual representation learning. Two simple yet essential changes are made. First, we shift the prediction target from raw pixels to semantic tokens, enabling a higher-level understanding of visual content. Second, we supplement the autoregressive modeling by instructing the model to predict not only the next tokens but also the visible tokens. This pipeline is particularly effective when semantic tokens are encoded by discriminatively trained models, such as CLIP. We introduce this novel approach as D-iGPT. Extensive experiments showcase that D-iGPT excels as a strong learner of visual representations: A notable achievement of D-iGPT is its compelling performance on the ImageNet-1K dataset -- by training on publicly available datasets, D-iGPT achieves 89.5\% top-1 accuracy with a vanilla ViT-Large model. This model also shows strong generalization on the downstream task and robustness on out-of-distribution samples. Code is avaiable at https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
PDF71December 15, 2024