ViT-Up: Remuestreo Fiel de Características para Transformers de Visión

Resumen

Los Vision Transformers (ViTs) se han convertido en una arquitectura dominante para el aprendizaje de representaciones visuales, proporcionando características de backbone excepcionalmente sólidas y ampliamente reutilizables. Sin embargo, los ViTs suelen operar sobre cuadrículas de parches relativamente pequeñas debido al costo cuadrático de la autoatención global, lo que crea un cuello de botella persistente para tareas de predicción densa, como la segmentación semántica y la estimación de profundidad. Esto ha motivado el desarrollo de upsamplers de características agnósticos a la tarea. Si bien los métodos de última generación actuales producen representaciones densas visualmente nítidas, su dependencia de codificadores de imagen superficiales para el upsampling guiado puede introducir fuga de características, fragmentación y desenfoque. Presentamos ViT-Up, un marco de upsampling implícito de características que reemplaza la guía externa de imagen con una construcción de consultas por capas a partir de estados ocultos intermedios de ViT. Esto permite la predicción de características en coordenadas continuas arbitrarias de la imagen, manteniendo la alineación con el espacio de características del backbone. Los experimentos demuestran que ViT-Up supera consistentemente a los upsamplers guiados por imagen de última generación en predicción densa y correspondencia semántica. En DINOv3-S+, ViT-Up mejora con respecto a métodos anteriores hasta en +2.07 mIoU en Cityscapes y +4.17 PCK@0.10 en SPair-71k. Con el backbone más grande DINOv3-B, estas ganancias aumentan a +3.36 mIoU y +8.09 PCK@0.10, lo que demuestra que ViT-Up escala favorablemente con la capacidad del backbone.

English

Vision Transformers (ViTs) have become a dominant architecture for visual representation learning, providing exceptionally strong and broadly reusable backbone features. However, ViTs are commonly operated on relatively small patch-token grids due to the quadratic cost of global self-attention, which creates a persistent bottleneck for dense prediction tasks such as semantic segmentation and depth estimation. This has motivated the development of task-agnostic feature upsamplers. While recent state-of-the-art methods produce visually sharp dense representations, their reliance on shallow image encoders for guided upsampling can introduce feature leakage, fragmentation, and blur. We introduce ViT-Up, an implicit feature upsampling framework that replaces external image guidance with layer-wise query construction from intermediate ViT hidden states. This enables feature prediction at arbitrary continuous image coordinates while preserving alignment with the backbone feature space. Experiments demonstrate that ViT-Up consistently outperforms state-of-the-art image-guided upsamplers across dense prediction and semantic correspondence. On DINOv3-S+, ViT-Up improves over prior methods by up to +2.07 mIoU on Cityscapes and +4.17 PCK@0.10 on SPair-71k. With the larger DINOv3-B backbone, these gains increase to +3.36 mIoU and +8.09 PCK@0.10, demonstrating that ViT-Up scales favorably with backbone capacity.