ChatPaper.aiChatPaper

Ihr ViT ist heimlich ein Bildsegmentierungsmodell.

Your ViT is Secretly an Image Segmentation Model

March 24, 2025
Autoren: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI

Zusammenfassung

Vision Transformers (ViTs) haben bemerkenswerte Leistung und Skalierbarkeit bei verschiedenen Computer-Vision-Aufgaben gezeigt. Um einstufige ViTs für die Bildsegmentierung anzuwenden, nutzen bestehende Methoden einen konvolutionalen Adapter, um mehrstufige Merkmale zu erzeugen, einen Pixel-Decoder, um diese Merkmale zu fusionieren, und einen Transformer-Decoder, der die fusionierten Merkmale für Vorhersagen verwendet. In diesem Artikel zeigen wir, dass die induktiven Verzerrungen, die durch diese aufgaben spezifischen Komponenten eingeführt werden, stattdessen vom ViT selbst gelernt werden können, vorausgesetzt, es werden ausreichend große Modelle und umfangreiches Pre-Training verwendet. Basierend auf diesen Erkenntnissen stellen wir den Encoder-only Mask Transformer (EoMT) vor, der die einfache ViT-Architektur für die Bildsegmentierung nutzt. Mit großskaligen Modellen und Pre-Training erreicht EoMT eine Segmentierungsgenauigkeit, die vergleichbar ist mit state-of-the-art Modellen, die aufgaben spezifische Komponenten verwenden. Gleichzeitig ist EoMT aufgrund seiner architektonischen Einfachheit deutlich schneller als diese Methoden, z.B. bis zu 4x schneller mit ViT-L. Über eine Reihe von Modellgrößen hinweg zeigt EoMT ein optimales Gleichgewicht zwischen Segmentierungsgenauigkeit und Vorhersagegeschwindigkeit, was darauf hindeutet, dass Rechenressourcen besser für die Skalierung des ViT selbst verwendet werden sollten, anstatt architektonische Komplexität hinzuzufügen. Code: https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability across various computer vision tasks. To apply single-scale ViTs to image segmentation, existing methods adopt a convolutional adapter to generate multi-scale features, a pixel decoder to fuse these features, and a Transformer decoder that uses the fused features to make predictions. In this paper, we show that the inductive biases introduced by these task-specific components can instead be learned by the ViT itself, given sufficiently large models and extensive pre-training. Based on these findings, we introduce the Encoder-only Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct image segmentation. With large-scale models and pre-training, EoMT obtains a segmentation accuracy similar to state-of-the-art models that use task-specific components. At the same time, EoMT is significantly faster than these methods due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a range of model sizes, EoMT demonstrates an optimal balance between segmentation accuracy and prediction speed, suggesting that compute resources are better spent on scaling the ViT itself rather than adding architectural complexity. Code: https://www.tue-mps.org/eomt/.
PDF212March 31, 2025