ChatPaper.aiChatPaper

Трансформеры для обработки изображений нуждаются в регистрах

Vision Transformers Need Registers

September 28, 2023
Авторы: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
cs.AI

Аннотация

Трансформеры недавно зарекомендовали себя как мощный инструмент для обучения визуальных представлений. В данной работе мы выявляем и характеризуем артефакты в картах признаков как контролируемых, так и самоконтролируемых сетей ViT. Эти артефакты соответствуют токенам с высокой нормой, появляющимся во время вывода преимущественно в малозначимых фоновых областях изображений, которые перепрофилируются для внутренних вычислений. Мы предлагаем простое, но эффективное решение, основанное на добавлении дополнительных токенов во входную последовательность Vision Transformer для выполнения этой роли. Мы показываем, что это решение полностью устраняет проблему как для контролируемых, так и для самоконтролируемых моделей, устанавливает новый эталон для самоконтролируемых визуальных моделей в задачах плотного визуального прогнозирования, позволяет методам обнаружения объектов работать с более крупными моделями и, что наиболее важно, приводит к более гладким картам признаков и картам внимания для последующей визуальной обработки.
English
Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
PDF809December 15, 2024