Je ViT is in het geheim een beeldsegmentatiemodel
Your ViT is Secretly an Image Segmentation Model
March 24, 2025
Auteurs: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI
Samenvatting
Vision Transformers (ViTs) hebben opmerkelijke prestaties en schaalbaarheid getoond bij diverse computer vision-taken. Om single-scale ViTs toe te passen op beeldsegmentatie, gebruiken bestaande methoden een convolutionele adapter om multi-scale features te genereren, een pixeldecoder om deze features samen te voegen, en een Transformer-decoder die de samengevoegde features gebruikt om voorspellingen te maken. In dit artikel laten we zien dat de inductieve biases die door deze taakspecifieke componenten worden geïntroduceerd, in plaats daarvan door de ViT zelf kunnen worden geleerd, mits voldoende grote modellen en uitgebreide pre-training worden gebruikt. Op basis van deze bevindingen introduceren we de Encoder-only Mask Transformer (EoMT), die de standaard ViT-architectuur hergebruikt om beeldsegmentatie uit te voeren. Met grootschalige modellen en pre-training behaalt EoMT een segmentatienauwkeurigheid die vergelijkbaar is met state-of-the-art modellen die taakspecifieke componenten gebruiken. Tegelijkertijd is EoMT aanzienlijk sneller dan deze methoden vanwege zijn architecturale eenvoud, bijvoorbeeld tot 4x sneller met ViT-L. Over een reeks modelgroottes toont EoMT een optimale balans tussen segmentatienauwkeurigheid en voorspellingssnelheid, wat suggereert dat rekenbronnen beter kunnen worden besteed aan het schalen van de ViT zelf in plaats van het toevoegen van architecturale complexiteit. Code: https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability
across various computer vision tasks. To apply single-scale ViTs to image
segmentation, existing methods adopt a convolutional adapter to generate
multi-scale features, a pixel decoder to fuse these features, and a Transformer
decoder that uses the fused features to make predictions. In this paper, we
show that the inductive biases introduced by these task-specific components can
instead be learned by the ViT itself, given sufficiently large models and
extensive pre-training. Based on these findings, we introduce the Encoder-only
Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct
image segmentation. With large-scale models and pre-training, EoMT obtains a
segmentation accuracy similar to state-of-the-art models that use task-specific
components. At the same time, EoMT is significantly faster than these methods
due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a
range of model sizes, EoMT demonstrates an optimal balance between segmentation
accuracy and prediction speed, suggesting that compute resources are better
spent on scaling the ViT itself rather than adding architectural complexity.
Code: https://www.tue-mps.org/eomt/.Summary
AI-Generated Summary