ViT-Up : Suréchantillonnage fidèle des caractéristiques pour les Transformers de vision

Résumé

Les Vision Transformers (ViTs) sont devenus une architecture dominante pour l'apprentissage de représentations visuelles, offrant des caractéristiques de backbone exceptionnellement solides et largement réutilisables. Cependant, les ViTs sont généralement exploités sur des grilles de patch-tokens relativement petites en raison du coût quadratique de l'auto-attention globale, ce qui crée un goulot d'étranglement persistant pour les tâches de prédiction dense telles que la segmentation sémantique et l'estimation de profondeur. Cela a motivé le développement de sur-échantillonneurs de caractéristiques agnostiques aux tâches. Alors que les méthodes récentes de pointe produisent des représentations denses visuellement nettes, leur dépendance à des encodeurs d'image peu profonds pour le sur-échantillonnage guidé peut introduire des fuites de caractéristiques, une fragmentation et un flou. Nous introduisons ViT-Up, un cadre de sur-échantillonnage implicite de caractéristiques qui remplace le guidage par image externe par une construction de requêtes par couche à partir des états cachés intermédiaires du ViT. Cela permet la prédiction de caractéristiques à des coordonnées d'image continues arbitraires tout en préservant l'alignement avec l'espace de caractéristiques du backbone. Des expériences montrent que ViT-Up surpasse systématiquement les sur-échantillonneurs guidés par image de pointe en prédiction dense et correspondance sémantique. Avec DINOv3-S+, ViT-Up améliore les méthodes précédentes jusqu'à +2,07 mIoU sur Cityscapes et +4,17 PCK@0,10 sur SPair-71k. Avec le backbone plus grand DINOv3-B, ces gains augmentent à +3,36 mIoU et +8,09 PCK@0,10, démontrant que ViT-Up évolue favorablement avec la capacité du backbone.

English

Vision Transformers (ViTs) have become a dominant architecture for visual representation learning, providing exceptionally strong and broadly reusable backbone features. However, ViTs are commonly operated on relatively small patch-token grids due to the quadratic cost of global self-attention, which creates a persistent bottleneck for dense prediction tasks such as semantic segmentation and depth estimation. This has motivated the development of task-agnostic feature upsamplers. While recent state-of-the-art methods produce visually sharp dense representations, their reliance on shallow image encoders for guided upsampling can introduce feature leakage, fragmentation, and blur. We introduce ViT-Up, an implicit feature upsampling framework that replaces external image guidance with layer-wise query construction from intermediate ViT hidden states. This enables feature prediction at arbitrary continuous image coordinates while preserving alignment with the backbone feature space. Experiments demonstrate that ViT-Up consistently outperforms state-of-the-art image-guided upsamplers across dense prediction and semantic correspondence. On DINOv3-S+, ViT-Up improves over prior methods by up to +2.07 mIoU on Cityscapes and +4.17 PCK@0.10 on SPair-71k. With the larger DINOv3-B backbone, these gains increase to +3.36 mIoU and +8.09 PCK@0.10, demonstrating that ViT-Up scales favorably with backbone capacity.