Je ViT is in het geheim een beeldsegmentatiemodel

Samenvatting

Vision Transformers (ViTs) hebben opmerkelijke prestaties en schaalbaarheid getoond bij diverse computer vision-taken. Om single-scale ViTs toe te passen op beeldsegmentatie, gebruiken bestaande methoden een convolutionele adapter om multi-scale features te genereren, een pixeldecoder om deze features samen te voegen, en een Transformer-decoder die de samengevoegde features gebruikt om voorspellingen te maken. In dit artikel laten we zien dat de inductieve biases die door deze taakspecifieke componenten worden geïntroduceerd, in plaats daarvan door de ViT zelf kunnen worden geleerd, mits voldoende grote modellen en uitgebreide pre-training worden gebruikt. Op basis van deze bevindingen introduceren we de Encoder-only Mask Transformer (EoMT), die de standaard ViT-architectuur hergebruikt om beeldsegmentatie uit te voeren. Met grootschalige modellen en pre-training behaalt EoMT een segmentatienauwkeurigheid die vergelijkbaar is met state-of-the-art modellen die taakspecifieke componenten gebruiken. Tegelijkertijd is EoMT aanzienlijk sneller dan deze methoden vanwege zijn architecturale eenvoud, bijvoorbeeld tot 4x sneller met ViT-L. Over een reeks modelgroottes toont EoMT een optimale balans tussen segmentatienauwkeurigheid en voorspellingssnelheid, wat suggereert dat rekenbronnen beter kunnen worden besteed aan het schalen van de ViT zelf in plaats van het toevoegen van architecturale complexiteit. Code: https://www.tue-mps.org/eomt/.

English

Vision Transformers (ViTs) have shown remarkable performance and scalability across various computer vision tasks. To apply single-scale ViTs to image segmentation, existing methods adopt a convolutional adapter to generate multi-scale features, a pixel decoder to fuse these features, and a Transformer decoder that uses the fused features to make predictions. In this paper, we show that the inductive biases introduced by these task-specific components can instead be learned by the ViT itself, given sufficiently large models and extensive pre-training. Based on these findings, we introduce the Encoder-only Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct image segmentation. With large-scale models and pre-training, EoMT obtains a segmentation accuracy similar to state-of-the-art models that use task-specific components. At the same time, EoMT is significantly faster than these methods due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a range of model sizes, EoMT demonstrates an optimal balance between segmentation accuracy and prediction speed, suggesting that compute resources are better spent on scaling the ViT itself rather than adding architectural complexity. Code: https://www.tue-mps.org/eomt/.

Je ViT is in het geheim een beeldsegmentatiemodel

Your ViT is Secretly an Image Segmentation Model

Samenvatting

Support