Изображение стоит больше, чем 16x16 фрагментов: исследование применения трансформеров на отдельных пикселях
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
June 13, 2024
Авторы: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen
cs.AI
Аннотация
Эта работа не представляет новый метод. Вместо этого мы представляем интересное открытие, которое ставит под сомнение необходимость индуктивного смещения - локальности в современных архитектурах компьютерного зрения. Конкретно, мы обнаружили, что обычные трансформеры могут работать, обрабатывая каждый отдельный пиксель как токен и достигая высоких результатов. Это существенно отличается от популярного дизайна в Vision Transformer, который сохраняет индуктивное смещение от ConvNets к локальным окрестностям (например, обрабатывая каждый патч размером 16x16 как токен). Мы в основном демонстрируем эффективность пикселей-как-токенов на трех хорошо изученных задачах в компьютерном зрении: обучение с учителем для классификации объектов, самообучение через маскированное авокодирование и генерация изображений с помощью моделей диффузии. Хотя прямая работа с отдельными пикселями менее вычислительно эффективна, мы считаем, что сообщество должно быть в курсе этого удивительного знания при разработке следующего поколения нейронных архитектур для компьютерного зрения.
English
This work does not introduce a new method. Instead, we present an interesting
finding that questions the necessity of the inductive bias -- locality in
modern computer vision architectures. Concretely, we find that vanilla
Transformers can operate by directly treating each individual pixel as a token
and achieve highly performant results. This is substantially different from the
popular design in Vision Transformer, which maintains the inductive bias from
ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a
token). We mainly showcase the effectiveness of pixels-as-tokens across three
well-studied tasks in computer vision: supervised learning for object
classification, self-supervised learning via masked autoencoding, and image
generation with diffusion models. Although directly operating on individual
pixels is less computationally practical, we believe the community must be
aware of this surprising piece of knowledge when devising the next generation
of neural architectures for computer vision.Summary
AI-Generated Summary