Ваш ViT на самом деле является моделью для сегментации изображений
Your ViT is Secretly an Image Segmentation Model
March 24, 2025
Авторы: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI
Аннотация
Трансформеры для обработки изображений (Vision Transformers, ViTs) продемонстрировали выдающуюся производительность и масштабируемость в различных задачах компьютерного зрения. Для применения одноуровневых ViTs к сегментации изображений существующие методы используют сверточный адаптер для генерации многоуровневых признаков, пиксельный декодер для их объединения и трансформерный декодер, который использует объединенные признаки для предсказаний. В данной работе мы показываем, что индуктивные смещения, вводимые этими специфичными для задачи компонентами, могут быть изучены самим ViT при условии достаточно больших моделей и обширного предварительного обучения. Основываясь на этих выводах, мы представляем Encoder-only Mask Transformer (EoMT), который адаптирует простую архитектуру ViT для выполнения сегментации изображений. С использованием крупномасштабных моделей и предварительного обучения EoMT достигает точности сегментации, сопоставимой с современными моделями, использующими специфичные для задачи компоненты. При этом EoMT значительно быстрее этих методов благодаря своей архитектурной простоте, например, до 4 раз быстрее с ViT-L. Для различных размеров моделей EoMT демонстрирует оптимальный баланс между точностью сегментации и скоростью предсказания, что указывает на то, что вычислительные ресурсы лучше направлять на масштабирование самого ViT, а не на добавление архитектурной сложности. Код: https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability
across various computer vision tasks. To apply single-scale ViTs to image
segmentation, existing methods adopt a convolutional adapter to generate
multi-scale features, a pixel decoder to fuse these features, and a Transformer
decoder that uses the fused features to make predictions. In this paper, we
show that the inductive biases introduced by these task-specific components can
instead be learned by the ViT itself, given sufficiently large models and
extensive pre-training. Based on these findings, we introduce the Encoder-only
Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct
image segmentation. With large-scale models and pre-training, EoMT obtains a
segmentation accuracy similar to state-of-the-art models that use task-specific
components. At the same time, EoMT is significantly faster than these methods
due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a
range of model sizes, EoMT demonstrates an optimal balance between segmentation
accuracy and prediction speed, suggesting that compute resources are better
spent on scaling the ViT itself rather than adding architectural complexity.
Code: https://www.tue-mps.org/eomt/.Summary
AI-Generated Summary