ChatPaper.aiChatPaper

あなたのViTは密かに画像セグメンテーションモデルである

Your ViT is Secretly an Image Segmentation Model

March 24, 2025
著者: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI

要旨

Vision Transformers (ViTs) は、様々なコンピュータビジョンタスクにおいて優れた性能とスケーラビリティを示しています。単一スケールのViTを画像セグメンテーションに適用するために、既存の手法では、マルチスケール特徴を生成するための畳み込みアダプター、これらの特徴を融合するピクセルデコーダー、そして融合された特徴を用いて予測を行うTransformerデコーダーを採用しています。本論文では、これらのタスク固有のコンポーネントによって導入される帰納的バイアスは、十分に大規模なモデルと広範な事前学習が与えられれば、ViT自体によって学習可能であることを示します。これらの知見に基づいて、我々はプレーンなViTアーキテクチャを再利用して画像セグメンテーションを行うEncoder-only Mask Transformer (EoMT) を提案します。大規模モデルと事前学習を用いることで、EoMTはタスク固有のコンポーネントを使用する最先端モデルと同等のセグメンテーション精度を達成します。同時に、EoMTはそのアーキテクチャの簡潔さにより、これらの手法よりも大幅に高速です。例えば、ViT-Lを使用した場合、最大4倍の速度向上が見られます。様々なモデルサイズにおいて、EoMTはセグメンテーション精度と予測速度の最適なバランスを示し、計算リソースはアーキテクチャの複雑化ではなく、ViT自体のスケーリングに費やすべきであることを示唆しています。コード: https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability across various computer vision tasks. To apply single-scale ViTs to image segmentation, existing methods adopt a convolutional adapter to generate multi-scale features, a pixel decoder to fuse these features, and a Transformer decoder that uses the fused features to make predictions. In this paper, we show that the inductive biases introduced by these task-specific components can instead be learned by the ViT itself, given sufficiently large models and extensive pre-training. Based on these findings, we introduce the Encoder-only Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct image segmentation. With large-scale models and pre-training, EoMT obtains a segmentation accuracy similar to state-of-the-art models that use task-specific components. At the same time, EoMT is significantly faster than these methods due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a range of model sizes, EoMT demonstrates an optimal balance between segmentation accuracy and prediction speed, suggesting that compute resources are better spent on scaling the ViT itself rather than adding architectural complexity. Code: https://www.tue-mps.org/eomt/.

Summary

AI-Generated Summary

PDF212March 31, 2025