ChatPaper.aiChatPaper

Ein Bild ist mehr wert als 16x16 Patches: Die Erforschung von Transformatoren auf einzelnen Pixeln.

An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

June 13, 2024
Autoren: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen
cs.AI

Zusammenfassung

Diese Arbeit stellt keine neue Methode vor. Stattdessen präsentieren wir eine interessante Entdeckung, die die Notwendigkeit des induktiven Bias - der Lokalität in modernen Architekturen für die Computer Vision - in Frage stellt. Konkret stellen wir fest, dass einfache Transformers arbeiten können, indem sie jeden einzelnen Pixel direkt als Token behandeln und dabei hochperformante Ergebnisse erzielen. Dies unterscheidet sich wesentlich vom populären Design im Vision Transformer, das den induktiven Bias von ConvNets gegenüber lokalen Nachbarschaften beibehält (z.B. durch Behandlung jedes 16x16 Patches als Token). Wir zeigen hauptsächlich die Effektivität von Pixeln-als-Token in drei gut untersuchten Aufgaben in der Computer Vision: überwachtes Lernen für die Objektklassifizierung, selbstüberwachtes Lernen über maskiertes Autoencoding und Bildgenerierung mit Diffusionsmodellen. Obwohl das direkte Arbeiten mit einzelnen Pixeln weniger rechentechnisch praktikabel ist, sind wir der Meinung, dass die Gemeinschaft sich dieser überraschenden Erkenntnis bewusst sein muss, wenn sie die nächste Generation neuronaler Architekturen für die Computer Vision entwickelt.
English
This work does not introduce a new method. Instead, we present an interesting finding that questions the necessity of the inductive bias -- locality in modern computer vision architectures. Concretely, we find that vanilla Transformers can operate by directly treating each individual pixel as a token and achieve highly performant results. This is substantially different from the popular design in Vision Transformer, which maintains the inductive bias from ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a token). We mainly showcase the effectiveness of pixels-as-tokens across three well-studied tasks in computer vision: supervised learning for object classification, self-supervised learning via masked autoencoding, and image generation with diffusion models. Although directly operating on individual pixels is less computationally practical, we believe the community must be aware of this surprising piece of knowledge when devising the next generation of neural architectures for computer vision.

Summary

AI-Generated Summary

PDF522December 6, 2024