ViTAR: 任意解像度対応のVision TransformerViTAR: Vision Transformer with Any Resolution
本論文は、Vision Transformers(ViTs)が直面する重要な課題、すなわち異なる画像解像度間でのスケーラビリティの制約に取り組む。通常、ViTsはトレーニング時に見られた解像度とは異なる解像度を処理する際に性能の低下を経験する。我々の研究では、この問題に対処するために2つの主要な革新を導入する。まず、単一のTransformerブロックで設計された動的解像度調整のための新規モジュールを提案し、高度に効率的なインクリメンタルトークン統合を実現する。次に、Vision Transformerにファジィ位置エンコーディングを導入し、複数の解像度にわたって一貫した位置認識を提供することで、単一のトレーニング解像度への過剰適合を防ぐ。結果として得られたモデル、ViTAR(Vision Transformer with Any Resolution)は、1120x1120解像度で83.3%のトップ1精度、4032x4032解像度で80.4%の精度を達成し、計算コストを削減しながら印象的な適応性を示す。ViTARはまた、インスタンスセグメンテーションやセマンティックセグメンテーションなどの下流タスクにおいても強力な性能を示し、Masked AutoEncoderのような自己教師あり学習技術と容易に組み合わせることができる。我々の研究は、ViTsの解像度スケーラビリティを向上させるためのコスト効率の良いソリューションを提供し、より汎用的で効率的な高解像度画像処理への道を開く。