Seu ViT é Secretamente um Modelo de Segmentação de Imagens
Your ViT is Secretly an Image Segmentation Model
March 24, 2025
Autores: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI
Resumo
Os Vision Transformers (ViTs) têm demonstrado desempenho e escalabilidade notáveis em diversas tarefas de visão computacional. Para aplicar ViTs de escala única à segmentação de imagens, os métodos existentes adotam um adaptador convolucional para gerar características multiescala, um decodificador de pixels para fundir essas características e um decodificador Transformer que utiliza as características fundidas para fazer previsões. Neste artigo, mostramos que os vieses indutivos introduzidos por esses componentes específicos da tarefa podem, em vez disso, ser aprendidos pelo próprio ViT, desde que sejam utilizados modelos suficientemente grandes e pré-treinamento extensivo. Com base nessas descobertas, introduzimos o Encoder-only Mask Transformer (EoMT), que reaproveita a arquitetura simples do ViT para realizar segmentação de imagens. Com modelos de grande escala e pré-treinamento, o EoMT obtém uma precisão de segmentação semelhante aos modelos state-of-the-art que utilizam componentes específicos da tarefa. Ao mesmo tempo, o EoMT é significativamente mais rápido do que esses métodos devido à sua simplicidade arquitetônica, por exemplo, até 4x mais rápido com o ViT-L. Em uma variedade de tamanhos de modelos, o EoMT demonstra um equilíbrio ideal entre precisão de segmentação e velocidade de previsão, sugerindo que os recursos computacionais são melhor empregados na escalabilidade do próprio ViT em vez de adicionar complexidade arquitetônica. Código: https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability
across various computer vision tasks. To apply single-scale ViTs to image
segmentation, existing methods adopt a convolutional adapter to generate
multi-scale features, a pixel decoder to fuse these features, and a Transformer
decoder that uses the fused features to make predictions. In this paper, we
show that the inductive biases introduced by these task-specific components can
instead be learned by the ViT itself, given sufficiently large models and
extensive pre-training. Based on these findings, we introduce the Encoder-only
Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct
image segmentation. With large-scale models and pre-training, EoMT obtains a
segmentation accuracy similar to state-of-the-art models that use task-specific
components. At the same time, EoMT is significantly faster than these methods
due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a
range of model sizes, EoMT demonstrates an optimal balance between segmentation
accuracy and prediction speed, suggesting that compute resources are better
spent on scaling the ViT itself rather than adding architectural complexity.
Code: https://www.tue-mps.org/eomt/.Summary
AI-Generated Summary