Een Afbeelding is Meer Waard dan 16x16 Patches: Het Verkennen van Transformers op Individuele Pixels
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
June 13, 2024
Auteurs: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen
cs.AI
Samenvatting
Dit werk introduceert geen nieuwe methode. In plaats daarvan presenteren we een interessante bevinding die de noodzaak van de inductieve bias – localiteit in moderne computer vision-architecturen – in twijfel trekt. Concreet ontdekken we dat standaard Transformers kunnen functioneren door elk individueel pixel direct als een token te behandelen en zeer presterende resultaten te behalen. Dit verschilt aanzienlijk van het populaire ontwerp in Vision Transformer, dat de inductieve bias van ConvNets ten aanzien van lokale omgevingen behoudt (bijvoorbeeld door elk 16x16 patch als een token te behandelen). We demonstreren vooral de effectiviteit van pixels-als-tokens in drie goed bestudeerde taken binnen computer vision: supervised learning voor objectclassificatie, self-supervised learning via gemaskeerde auto-encodering, en beeldgeneratie met diffusiemodellen. Hoewel het direct werken met individuele pixels minder computationeel praktisch is, geloven we dat de gemeenschap zich bewust moet zijn van deze verrassende kennis bij het ontwerpen van de volgende generatie neurale architecturen voor computer vision.
English
This work does not introduce a new method. Instead, we present an interesting
finding that questions the necessity of the inductive bias -- locality in
modern computer vision architectures. Concretely, we find that vanilla
Transformers can operate by directly treating each individual pixel as a token
and achieve highly performant results. This is substantially different from the
popular design in Vision Transformer, which maintains the inductive bias from
ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a
token). We mainly showcase the effectiveness of pixels-as-tokens across three
well-studied tasks in computer vision: supervised learning for object
classification, self-supervised learning via masked autoencoding, and image
generation with diffusion models. Although directly operating on individual
pixels is less computationally practical, we believe the community must be
aware of this surprising piece of knowledge when devising the next generation
of neural architectures for computer vision.