Трансформеры для обработки изображений нуждаются в регистрах
Vision Transformers Need Registers
September 28, 2023
Авторы: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
cs.AI
Аннотация
Трансформеры недавно зарекомендовали себя как мощный инструмент для обучения визуальных представлений. В данной работе мы выявляем и характеризуем артефакты в картах признаков как контролируемых, так и самоконтролируемых сетей ViT. Эти артефакты соответствуют токенам с высокой нормой, появляющимся во время вывода преимущественно в малозначимых фоновых областях изображений, которые перепрофилируются для внутренних вычислений. Мы предлагаем простое, но эффективное решение, основанное на добавлении дополнительных токенов во входную последовательность Vision Transformer для выполнения этой роли. Мы показываем, что это решение полностью устраняет проблему как для контролируемых, так и для самоконтролируемых моделей, устанавливает новый эталон для самоконтролируемых визуальных моделей в задачах плотного визуального прогнозирования, позволяет методам обнаружения объектов работать с более крупными моделями и, что наиболее важно, приводит к более гладким картам признаков и картам внимания для последующей визуальной обработки.
English
Transformers have recently emerged as a powerful tool for learning visual
representations. In this paper, we identify and characterize artifacts in
feature maps of both supervised and self-supervised ViT networks. The artifacts
correspond to high-norm tokens appearing during inference primarily in
low-informative background areas of images, that are repurposed for internal
computations. We propose a simple yet effective solution based on providing
additional tokens to the input sequence of the Vision Transformer to fill that
role. We show that this solution fixes that problem entirely for both
supervised and self-supervised models, sets a new state of the art for
self-supervised visual models on dense visual prediction tasks, enables object
discovery methods with larger models, and most importantly leads to smoother
feature maps and attention maps for downstream visual processing.