ChatPaper.aiChatPaper

Votre ViT est en réalité un modèle de segmentation d'images.

Your ViT is Secretly an Image Segmentation Model

March 24, 2025
Auteurs: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI

Résumé

Les Vision Transformers (ViTs) ont démontré des performances remarquables et une grande évolutivité dans diverses tâches de vision par ordinateur. Pour appliquer des ViTs à échelle unique à la segmentation d'images, les méthodes existantes utilisent un adaptateur convolutif pour générer des caractéristiques multi-échelles, un décodeur de pixels pour fusionner ces caractéristiques, et un décodeur Transformer qui utilise les caractéristiques fusionnées pour effectuer des prédictions. Dans cet article, nous montrons que les biais inductifs introduits par ces composants spécifiques à la tâche peuvent en réalité être appris par le ViT lui-même, à condition d'utiliser des modèles suffisamment grands et un pré-entraînement extensif. Sur la base de ces observations, nous introduisons l'Encoder-only Mask Transformer (EoMT), qui réutilise l'architecture simple du ViT pour réaliser la segmentation d'images. Avec des modèles à grande échelle et un pré-entraînement, l'EoMT obtient une précision de segmentation similaire à celle des modèles de pointe qui utilisent des composants spécifiques à la tâche. Parallèlement, l'EoMT est significativement plus rapide que ces méthodes en raison de sa simplicité architecturale, par exemple jusqu'à 4 fois plus rapide avec ViT-L. Sur une gamme de tailles de modèles, l'EoMT démontre un équilibre optimal entre la précision de segmentation et la vitesse de prédiction, suggérant que les ressources de calcul sont mieux utilisées pour augmenter l'échelle du ViT lui-même plutôt que d'ajouter de la complexité architecturale. Code : https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability across various computer vision tasks. To apply single-scale ViTs to image segmentation, existing methods adopt a convolutional adapter to generate multi-scale features, a pixel decoder to fuse these features, and a Transformer decoder that uses the fused features to make predictions. In this paper, we show that the inductive biases introduced by these task-specific components can instead be learned by the ViT itself, given sufficiently large models and extensive pre-training. Based on these findings, we introduce the Encoder-only Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct image segmentation. With large-scale models and pre-training, EoMT obtains a segmentation accuracy similar to state-of-the-art models that use task-specific components. At the same time, EoMT is significantly faster than these methods due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a range of model sizes, EoMT demonstrates an optimal balance between segmentation accuracy and prediction speed, suggesting that compute resources are better spent on scaling the ViT itself rather than adding architectural complexity. Code: https://www.tue-mps.org/eomt/.

Summary

AI-Generated Summary

PDF212March 31, 2025