ChatPaper.aiChatPaper

Verjüngung von Image-GPT als leistungsstarke Lernmodelle für visuelle Repräsentationen

Rejuvenating image-GPT as Strong Visual Representation Learners

December 4, 2023
Autoren: Sucheng Ren, Zeyu Wang, Hongru Zhu, Junfei Xiao, Alan Yuille, Cihang Xie
cs.AI

Zusammenfassung

Dieses Papier verbessert image-GPT (iGPT), eine der wegweisenden Arbeiten, die autoregressives Pretraining zur Vorhersage der nächsten Pixel für das Lernen visueller Repräsentationen einführen. Es werden zwei einfache, aber wesentliche Änderungen vorgenommen. Erstens verlagern wir das Vorhersageziel von rohen Pixeln zu semantischen Tokens, was ein höheres Verständnis des visuellen Inhalts ermöglicht. Zweitens ergänzen wir das autoregressive Modellieren, indem wir das Modell anweisen, nicht nur die nächsten Tokens, sondern auch die sichtbaren Tokens vorherzusagen. Diese Pipeline ist besonders effektiv, wenn semantische Tokens durch diskriminativ trainierte Modelle wie CLIP kodiert werden. Wir führen diesen neuartigen Ansatz als D-iGPT ein. Umfangreiche Experimente zeigen, dass D-iGPT als starker Lerner visueller Repräsentationen hervorragt: Eine bemerkenswerte Leistung von D-iGPT ist seine überzeugende Leistung auf dem ImageNet-1K-Datensatz – durch das Training auf öffentlich verfügbaren Datensätzen erreicht D-iGPT eine Top-1-Genauigkeit von 89,5 % mit einem einfachen ViT-Large-Modell. Dieses Modell zeigt auch eine starke Generalisierung bei nachgelagerten Aufgaben und Robustheit bei Out-of-Distribution-Stichproben. Der Code ist verfügbar unter https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
English
This paper enhances image-GPT (iGPT), one of the pioneering works that introduce autoregressive pretraining to predict next pixels for visual representation learning. Two simple yet essential changes are made. First, we shift the prediction target from raw pixels to semantic tokens, enabling a higher-level understanding of visual content. Second, we supplement the autoregressive modeling by instructing the model to predict not only the next tokens but also the visible tokens. This pipeline is particularly effective when semantic tokens are encoded by discriminatively trained models, such as CLIP. We introduce this novel approach as D-iGPT. Extensive experiments showcase that D-iGPT excels as a strong learner of visual representations: A notable achievement of D-iGPT is its compelling performance on the ImageNet-1K dataset -- by training on publicly available datasets, D-iGPT achieves 89.5\% top-1 accuracy with a vanilla ViT-Large model. This model also shows strong generalization on the downstream task and robustness on out-of-distribution samples. Code is avaiable at https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
PDF71December 15, 2024