Ihr ViT ist heimlich ein Bildsegmentierungsmodell.
Your ViT is Secretly an Image Segmentation Model
March 24, 2025
Autoren: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI
Zusammenfassung
Vision Transformers (ViTs) haben bemerkenswerte Leistung und Skalierbarkeit bei verschiedenen Computer-Vision-Aufgaben gezeigt. Um einstufige ViTs für die Bildsegmentierung anzuwenden, nutzen bestehende Methoden einen konvolutionalen Adapter, um mehrstufige Merkmale zu erzeugen, einen Pixel-Decoder, um diese Merkmale zu fusionieren, und einen Transformer-Decoder, der die fusionierten Merkmale für Vorhersagen verwendet. In diesem Artikel zeigen wir, dass die induktiven Verzerrungen, die durch diese aufgaben spezifischen Komponenten eingeführt werden, stattdessen vom ViT selbst gelernt werden können, vorausgesetzt, es werden ausreichend große Modelle und umfangreiches Pre-Training verwendet. Basierend auf diesen Erkenntnissen stellen wir den Encoder-only Mask Transformer (EoMT) vor, der die einfache ViT-Architektur für die Bildsegmentierung nutzt. Mit großskaligen Modellen und Pre-Training erreicht EoMT eine Segmentierungsgenauigkeit, die vergleichbar ist mit state-of-the-art Modellen, die aufgaben spezifische Komponenten verwenden. Gleichzeitig ist EoMT aufgrund seiner architektonischen Einfachheit deutlich schneller als diese Methoden, z.B. bis zu 4x schneller mit ViT-L. Über eine Reihe von Modellgrößen hinweg zeigt EoMT ein optimales Gleichgewicht zwischen Segmentierungsgenauigkeit und Vorhersagegeschwindigkeit, was darauf hindeutet, dass Rechenressourcen besser für die Skalierung des ViT selbst verwendet werden sollten, anstatt architektonische Komplexität hinzuzufügen. Code: https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability
across various computer vision tasks. To apply single-scale ViTs to image
segmentation, existing methods adopt a convolutional adapter to generate
multi-scale features, a pixel decoder to fuse these features, and a Transformer
decoder that uses the fused features to make predictions. In this paper, we
show that the inductive biases introduced by these task-specific components can
instead be learned by the ViT itself, given sufficiently large models and
extensive pre-training. Based on these findings, we introduce the Encoder-only
Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct
image segmentation. With large-scale models and pre-training, EoMT obtains a
segmentation accuracy similar to state-of-the-art models that use task-specific
components. At the same time, EoMT is significantly faster than these methods
due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a
range of model sizes, EoMT demonstrates an optimal balance between segmentation
accuracy and prediction speed, suggesting that compute resources are better
spent on scaling the ViT itself rather than adding architectural complexity.
Code: https://www.tue-mps.org/eomt/.