1枚の画像は16x16パッチ以上の価値を持つ:個々のピクセルにおけるTransformerの探求
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
June 13, 2024
著者: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen
cs.AI
要旨
本研究は新たな手法を提案するものではありません。その代わりに、現代のコンピュータビジョンアーキテクチャにおける帰納的バイアス、特に局所性の必要性に疑問を投げかける興味深い発見を提示します。具体的には、バニラTransformerが各ピクセルを直接トークンとして扱うことで、非常に高い性能を発揮できることを明らかにしました。これは、Vision Transformerで一般的な設計(例えば、各16x16パッチをトークンとして扱うなど)がConvNetsから継承した局所近傍への帰納的バイアスを維持していることとは大きく異なります。我々は主に、ピクセルをトークンとして扱うアプローチの有効性を、コンピュータビジョンにおける3つのよく研究されたタスク(物体分類のための教師あり学習、マスク付きオートエンコーディングによる自己教師あり学習、拡散モデルを用いた画像生成)を通じて示します。個々のピクセルを直接操作することは計算的には実用的ではありませんが、次世代のコンピュータビジョン向けニューラルアーキテクチャを考案する際に、この驚くべき知見をコミュニティが認識すべきであると考えています。
English
This work does not introduce a new method. Instead, we present an interesting
finding that questions the necessity of the inductive bias -- locality in
modern computer vision architectures. Concretely, we find that vanilla
Transformers can operate by directly treating each individual pixel as a token
and achieve highly performant results. This is substantially different from the
popular design in Vision Transformer, which maintains the inductive bias from
ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a
token). We mainly showcase the effectiveness of pixels-as-tokens across three
well-studied tasks in computer vision: supervised learning for object
classification, self-supervised learning via masked autoencoding, and image
generation with diffusion models. Although directly operating on individual
pixels is less computationally practical, we believe the community must be
aware of this surprising piece of knowledge when devising the next generation
of neural architectures for computer vision.Summary
AI-Generated Summary