Une image vaut plus que des patches de 16x16 : Explorer les Transformers sur des pixels individuels
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
June 13, 2024
Auteurs: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen
cs.AI
Résumé
Ce travail n'introduit pas une nouvelle méthode. Nous présentons plutôt une découverte intéressante qui remet en question la nécessité du biais inductif — la localité — dans les architectures modernes de vision par ordinateur. Concrètement, nous constatons que les Transformers classiques peuvent fonctionner en traitant directement chaque pixel individuel comme un token et obtenir des résultats très performants. Cela diffère considérablement de la conception populaire dans les Vision Transformers, qui conservent le biais inductif des réseaux convolutifs envers les voisinages locaux (par exemple, en traitant chaque patch de 16x16 comme un token). Nous démontrons principalement l'efficacité de l'approche "pixels-comme-tokens" à travers trois tâches bien étudiées en vision par ordinateur : l'apprentissage supervisé pour la classification d'objets, l'apprentissage auto-supervisé via l'auto-encodage masqué, et la génération d'images avec des modèles de diffusion. Bien que l'opération directe sur des pixels individuels soit moins pratique sur le plan computationnel, nous pensons que la communauté doit être consciente de cette connaissance surprenante lors de la conception de la prochaine génération d'architectures neuronales pour la vision par ordinateur.
English
This work does not introduce a new method. Instead, we present an interesting
finding that questions the necessity of the inductive bias -- locality in
modern computer vision architectures. Concretely, we find that vanilla
Transformers can operate by directly treating each individual pixel as a token
and achieve highly performant results. This is substantially different from the
popular design in Vision Transformer, which maintains the inductive bias from
ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a
token). We mainly showcase the effectiveness of pixels-as-tokens across three
well-studied tasks in computer vision: supervised learning for object
classification, self-supervised learning via masked autoencoding, and image
generation with diffusion models. Although directly operating on individual
pixels is less computationally practical, we believe the community must be
aware of this surprising piece of knowledge when devising the next generation
of neural architectures for computer vision.Summary
AI-Generated Summary