Vision Transformer с локальной самоаттенцией

Аннотация

Трансформеры для компьютерного зрения продемонстрировали выдающиеся результаты в классификации, используя глобальный механизм самовнимания для учета дальнодействующих зависимостей. Однако этот же механизм может скрывать мелкозернистые пространственные детали, критически важные для таких задач, как сегментация. В данной работе мы стремимся улучшить производительность трансформеров для сегментации после стандартного обучения классификации на уровне изображения. В частности, мы предлагаем простой, но эффективный дополнительный модуль, который повышает качество решения задач сегментации, сохраняя при этом способности трансформеров к распознаванию на уровне изображения. В нашем подходе мы модулируем самовнимание с помощью обучаемого гауссовского ядра, которое смещает внимание в сторону соседних патчей. Дополнительно мы уточняем представления патчей для обучения более качественных эмбеддингов на их позициях. Эти модификации побуждают токены фокусироваться на локальном окружении и обеспечивают содержательные представления на пространственных позициях, сохраняя при этом способность модели учитывать глобальную информацию. Эксперименты подтверждают эффективность наших модификаций, что выражается в значительном улучшении сегментации на трех тестовых наборах данных (например, более чем на 6% и 4% для ViT Tiny и Base на ADE20K) без изменения режима обучения или ухудшения качества классификации. Код доступен по адресу https://github.com/sinahmr/LocAtViT/.

English

Vision transformers have demonstrated remarkable success in classification by leveraging global self-attention to capture long-range dependencies. However, this same mechanism can obscure fine-grained spatial details crucial for tasks such as segmentation. In this work, we seek to enhance segmentation performance of vision transformers after standard image-level classification training. More specifically, we present a simple yet effective add-on that improves performance on segmentation tasks while retaining vision transformers' image-level recognition capabilities. In our approach, we modulate the self-attention with a learnable Gaussian kernel that biases the attention toward neighboring patches. We further refine the patch representations to learn better embeddings at patch positions. These modifications encourage tokens to focus on local surroundings and ensure meaningful representations at spatial positions, while still preserving the model's ability to incorporate global information. Experiments demonstrate the effectiveness of our modifications, evidenced by substantial segmentation gains on three benchmarks (e.g., over 6% and 4% on ADE20K for ViT Tiny and Base), without changing the training regime or sacrificing classification performance. The code is available at https://github.com/sinahmr/LocAtViT/.

Vision Transformer с локальной самоаттенцией

Locality-Attending Vision Transformer

Аннотация

Support