ChatPaper.aiChatPaper

Una Imagen Vale Más Que 16x16 Parches: Explorando Transformers en Píxeles Individuales

An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

June 13, 2024
Autores: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen
cs.AI

Resumen

Este trabajo no introduce un nuevo método. En su lugar, presentamos un hallazgo interesante que cuestiona la necesidad del sesgo inductivo —la localidad— en las arquitecturas modernas de visión por computadora. Concretamente, descubrimos que los Transformers básicos pueden operar tratando directamente cada píxel individual como un token y lograr resultados altamente eficaces. Esto es sustancialmente diferente del diseño popular en Vision Transformer, que mantiene el sesgo inductivo de las ConvNets hacia vecindarios locales (por ejemplo, tratando cada parche de 16x16 como un token). Principalmente, demostramos la efectividad de los píxeles-como-tokens en tres tareas bien estudiadas en visión por computadora: aprendizaje supervisado para clasificación de objetos, aprendizaje autosupervisado mediante autoenmascaramiento y generación de imágenes con modelos de difusión. Aunque operar directamente sobre píxeles individuales es menos práctico computacionalmente, creemos que la comunidad debe estar al tanto de este sorprendente conocimiento al diseñar la próxima generación de arquitecturas neuronales para visión por computadora.
English
This work does not introduce a new method. Instead, we present an interesting finding that questions the necessity of the inductive bias -- locality in modern computer vision architectures. Concretely, we find that vanilla Transformers can operate by directly treating each individual pixel as a token and achieve highly performant results. This is substantially different from the popular design in Vision Transformer, which maintains the inductive bias from ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a token). We mainly showcase the effectiveness of pixels-as-tokens across three well-studied tasks in computer vision: supervised learning for object classification, self-supervised learning via masked autoencoding, and image generation with diffusion models. Although directly operating on individual pixels is less computationally practical, we believe the community must be aware of this surprising piece of knowledge when devising the next generation of neural architectures for computer vision.

Summary

AI-Generated Summary

PDF522December 6, 2024