Uma Imagem Vale Mais do que 16x16 Fragmentos: Explorando Transformers em Pixels Individuais
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
June 13, 2024
Autores: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen
cs.AI
Resumo
Este trabalho não introduz um novo método. Em vez disso, apresentamos uma descoberta interessante que questiona a necessidade do viés indutivo — a localidade nas arquiteturas modernas de visão computacional. Concretamente, descobrimos que Transformers básicos podem operar tratando diretamente cada pixel individual como um token e alcançar resultados altamente eficazes. Isso é substancialmente diferente do design popular no Vision Transformer, que mantém o viés indutivo das ConvNets em relação a vizinhanças locais (por exemplo, tratando cada patch de 16x16 como um token). Demonstramos principalmente a eficácia de pixels-como-tokens em três tarefas bem estudadas em visão computacional: aprendizado supervisionado para classificação de objetos, aprendizado auto-supervisionado via autoencoder mascarado e geração de imagens com modelos de difusão. Embora operar diretamente em pixels individuais seja menos prático computacionalmente, acreditamos que a comunidade deve estar ciente desse conhecimento surpreendente ao projetar a próxima geração de arquiteturas neurais para visão computacional.
English
This work does not introduce a new method. Instead, we present an interesting
finding that questions the necessity of the inductive bias -- locality in
modern computer vision architectures. Concretely, we find that vanilla
Transformers can operate by directly treating each individual pixel as a token
and achieve highly performant results. This is substantially different from the
popular design in Vision Transformer, which maintains the inductive bias from
ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a
token). We mainly showcase the effectiveness of pixels-as-tokens across three
well-studied tasks in computer vision: supervised learning for object
classification, self-supervised learning via masked autoencoding, and image
generation with diffusion models. Although directly operating on individual
pixels is less computationally practical, we believe the community must be
aware of this surprising piece of knowledge when devising the next generation
of neural architectures for computer vision.