ViT-Up: Getreues Feature-Upsampling für Vision-Transformer

Zusammenfassung

Vision Transformers (ViTs) haben sich zu einer dominanten Architektur für visuelles Repräsentationslernen entwickelt, die außergewöhnlich starke und breit wiederverwendbare Backbone-Merkmale liefern. Allerdings werden ViTs aufgrund der quadratischen Kosten der globalen Selbstaufmerksamkeit üblicherweise mit relativ kleinen Patch-Token-Gittern betrieben, was einen anhaltenden Engpass für dichte Vorhersageaufgaben wie semantische Segmentierung und Tiefenschätzung darstellt. Dies hat die Entwicklung aufgabenagnostischer Merkmals-Upsampler motiviert. Während aktuelle hochmoderne Verfahren visuell scharfe dichte Repräsentationen erzeugen, kann ihre Abhängigkeit von flachen Bildencodern für geführtes Upsampling zu Merkmalsleckagen, Fragmentierung und Unschärfe führen. Wir stellen ViT-Up vor, ein implizites Merkmals-Upsampling-Framework, das die externe Bildführung durch eine schichtweise Abfragekonstruktion aus zwischengeschalteten versteckten ViT-Zuständen ersetzt. Dies ermöglicht die Vorhersage von Merkmalen an beliebigen kontinuierlichen Bildkoordinaten unter Wahrung der Ausrichtung mit dem Backbone-Merkmalsraum. Experimente zeigen, dass ViT-Up durchgängig besser abschneidet als hochmoderne bildgeführte Upsampler bei dichten Vorhersagen und semantischer Korrespondenz. Auf DINOv3-S+ verbessert ViT-Up frühere Methoden um bis zu +2,07 mIoU auf Cityscapes und +4,17 PCK@0,10 auf SPair-71k. Mit dem größeren DINOv3-B-Backbone steigen diese Gewinne auf +3,36 mIoU und +8,09 PCK@0,10, was zeigt, dass ViT-Up günstig mit der Backbone-Kapazität skaliert.

English

Vision Transformers (ViTs) have become a dominant architecture for visual representation learning, providing exceptionally strong and broadly reusable backbone features. However, ViTs are commonly operated on relatively small patch-token grids due to the quadratic cost of global self-attention, which creates a persistent bottleneck for dense prediction tasks such as semantic segmentation and depth estimation. This has motivated the development of task-agnostic feature upsamplers. While recent state-of-the-art methods produce visually sharp dense representations, their reliance on shallow image encoders for guided upsampling can introduce feature leakage, fragmentation, and blur. We introduce ViT-Up, an implicit feature upsampling framework that replaces external image guidance with layer-wise query construction from intermediate ViT hidden states. This enables feature prediction at arbitrary continuous image coordinates while preserving alignment with the backbone feature space. Experiments demonstrate that ViT-Up consistently outperforms state-of-the-art image-guided upsamplers across dense prediction and semantic correspondence. On DINOv3-S+, ViT-Up improves over prior methods by up to +2.07 mIoU on Cityscapes and +4.17 PCK@0.10 on SPair-71k. With the larger DINOv3-B backbone, these gains increase to +3.36 mIoU and +8.09 PCK@0.10, demonstrating that ViT-Up scales favorably with backbone capacity.