Votre ViT est en réalité un modèle de segmentation d'images.
Your ViT is Secretly an Image Segmentation Model
March 24, 2025
Auteurs: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI
Résumé
Les Vision Transformers (ViTs) ont démontré des performances remarquables et une grande évolutivité dans diverses tâches de vision par ordinateur. Pour appliquer des ViTs à échelle unique à la segmentation d'images, les méthodes existantes utilisent un adaptateur convolutif pour générer des caractéristiques multi-échelles, un décodeur de pixels pour fusionner ces caractéristiques, et un décodeur Transformer qui utilise les caractéristiques fusionnées pour effectuer des prédictions. Dans cet article, nous montrons que les biais inductifs introduits par ces composants spécifiques à la tâche peuvent en réalité être appris par le ViT lui-même, à condition d'utiliser des modèles suffisamment grands et un pré-entraînement extensif. Sur la base de ces observations, nous introduisons l'Encoder-only Mask Transformer (EoMT), qui réutilise l'architecture simple du ViT pour réaliser la segmentation d'images. Avec des modèles à grande échelle et un pré-entraînement, l'EoMT obtient une précision de segmentation similaire à celle des modèles de pointe qui utilisent des composants spécifiques à la tâche. Parallèlement, l'EoMT est significativement plus rapide que ces méthodes en raison de sa simplicité architecturale, par exemple jusqu'à 4 fois plus rapide avec ViT-L. Sur une gamme de tailles de modèles, l'EoMT démontre un équilibre optimal entre la précision de segmentation et la vitesse de prédiction, suggérant que les ressources de calcul sont mieux utilisées pour augmenter l'échelle du ViT lui-même plutôt que d'ajouter de la complexité architecturale. Code : https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability
across various computer vision tasks. To apply single-scale ViTs to image
segmentation, existing methods adopt a convolutional adapter to generate
multi-scale features, a pixel decoder to fuse these features, and a Transformer
decoder that uses the fused features to make predictions. In this paper, we
show that the inductive biases introduced by these task-specific components can
instead be learned by the ViT itself, given sufficiently large models and
extensive pre-training. Based on these findings, we introduce the Encoder-only
Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct
image segmentation. With large-scale models and pre-training, EoMT obtains a
segmentation accuracy similar to state-of-the-art models that use task-specific
components. At the same time, EoMT is significantly faster than these methods
due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a
range of model sizes, EoMT demonstrates an optimal balance between segmentation
accuracy and prediction speed, suggesting that compute resources are better
spent on scaling the ViT itself rather than adding architectural complexity.
Code: https://www.tue-mps.org/eomt/.Summary
AI-Generated Summary