ViT-Up: Точное апсемплирование признаков для визуальных трансформеров

Аннотация

Витринные трансформеры (Vision Transformers, ViTs) стали доминирующей архитектурой для обучения визуальных представлений, обеспечивая исключительно сильные и широко переиспользуемые магистральные признаки. Однако ViT обычно работают с относительно небольшими сетками патч-токенов из-за квадратичной стоимости глобального самовнимания, что создает постоянное узкое место для задач плотного предсказания, таких как семантическая сегментация и оценка глубины. Это стимулировало разработку независимых от задачи апсемплеров признаков. Хотя современные передовые методы создают визуально резкие плотные представления, их зависимость от неглубоких кодировщиков изображений для управляемого апсемплинга может приводить к утечке признаков, фрагментации и размытию. Мы представляем ViT-Up — неявную структуру апсемплинга признаков, которая заменяет внешнее управление изображением на послойное построение запросов из промежуточных скрытых состояний ViT. Это позволяет предсказывать признаки в произвольных непрерывных координатах изображения, сохраняя согласованность с пространством магистральных признаков. Эксперименты показывают, что ViT-Up стабильно превосходит современные управляемые изображением апсемплеры в задачах плотного предсказания и семантического соответствия. На DINOv3-S+ ViT-Up улучшает предыдущие методы на до +2.07 mIoU на Cityscapes и +4.17 PCK@0.10 на SPair-71k. С более крупной магистралью DINOv3-B эти приросты увеличиваются до +3.36 mIoU и +8.09 PCK@0.10, что демонстрирует масштабирование ViT-Up с емкостью магистрали.

English

Vision Transformers (ViTs) have become a dominant architecture for visual representation learning, providing exceptionally strong and broadly reusable backbone features. However, ViTs are commonly operated on relatively small patch-token grids due to the quadratic cost of global self-attention, which creates a persistent bottleneck for dense prediction tasks such as semantic segmentation and depth estimation. This has motivated the development of task-agnostic feature upsamplers. While recent state-of-the-art methods produce visually sharp dense representations, their reliance on shallow image encoders for guided upsampling can introduce feature leakage, fragmentation, and blur. We introduce ViT-Up, an implicit feature upsampling framework that replaces external image guidance with layer-wise query construction from intermediate ViT hidden states. This enables feature prediction at arbitrary continuous image coordinates while preserving alignment with the backbone feature space. Experiments demonstrate that ViT-Up consistently outperforms state-of-the-art image-guided upsamplers across dense prediction and semantic correspondence. On DINOv3-S+, ViT-Up improves over prior methods by up to +2.07 mIoU on Cityscapes and +4.17 PCK@0.10 on SPair-71k. With the larger DINOv3-B backbone, these gains increase to +3.36 mIoU and +8.09 PCK@0.10, demonstrating that ViT-Up scales favorably with backbone capacity.