Ваш ViT на самом деле является моделью для сегментации изображений

Аннотация

Трансформеры для обработки изображений (Vision Transformers, ViTs) продемонстрировали выдающуюся производительность и масштабируемость в различных задачах компьютерного зрения. Для применения одноуровневых ViTs к сегментации изображений существующие методы используют сверточный адаптер для генерации многоуровневых признаков, пиксельный декодер для их объединения и трансформерный декодер, который использует объединенные признаки для предсказаний. В данной работе мы показываем, что индуктивные смещения, вводимые этими специфичными для задачи компонентами, могут быть изучены самим ViT при условии достаточно больших моделей и обширного предварительного обучения. Основываясь на этих выводах, мы представляем Encoder-only Mask Transformer (EoMT), который адаптирует простую архитектуру ViT для выполнения сегментации изображений. С использованием крупномасштабных моделей и предварительного обучения EoMT достигает точности сегментации, сопоставимой с современными моделями, использующими специфичные для задачи компоненты. При этом EoMT значительно быстрее этих методов благодаря своей архитектурной простоте, например, до 4 раз быстрее с ViT-L. Для различных размеров моделей EoMT демонстрирует оптимальный баланс между точностью сегментации и скоростью предсказания, что указывает на то, что вычислительные ресурсы лучше направлять на масштабирование самого ViT, а не на добавление архитектурной сложности. Код: https://www.tue-mps.org/eomt/.

English

Vision Transformers (ViTs) have shown remarkable performance and scalability across various computer vision tasks. To apply single-scale ViTs to image segmentation, existing methods adopt a convolutional adapter to generate multi-scale features, a pixel decoder to fuse these features, and a Transformer decoder that uses the fused features to make predictions. In this paper, we show that the inductive biases introduced by these task-specific components can instead be learned by the ViT itself, given sufficiently large models and extensive pre-training. Based on these findings, we introduce the Encoder-only Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct image segmentation. With large-scale models and pre-training, EoMT obtains a segmentation accuracy similar to state-of-the-art models that use task-specific components. At the same time, EoMT is significantly faster than these methods due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a range of model sizes, EoMT demonstrates an optimal balance between segmentation accuracy and prediction speed, suggesting that compute resources are better spent on scaling the ViT itself rather than adding architectural complexity. Code: https://www.tue-mps.org/eomt/.

Ваш ViT на самом деле является моделью для сегментации изображений

Your ViT is Secretly an Image Segmentation Model

Аннотация

Support