ViT-Up: Upsampling Fiel de Características para Transformers Visuais

Resumo

Vision Transformers (ViTs) tornaram-se uma arquitetura dominante para aprendizado de representação visual, fornecendo características de backbone excepcionalmente fortes e amplamente reutilizáveis. No entanto, os ViTs são comumente operados em grades de patch-tokens relativamente pequenas devido ao custo quadrático da autoatenção global, o que cria um gargalo persistente para tarefas de predição densa, como segmentação semântica e estimativa de profundidade. Isso motivou o desenvolvimento de upsamplers de características agnósticos à tarefa. Embora os métodos recentes de última geração produzam representações densas visualmente nítidas, sua dependência de codificadores de imagem rasos para upsampling guiado pode introduzir vazamento de características, fragmentação e borrão. Apresentamos o ViT-Up, uma estrutura de upsampling implícito de características que substitui a orientação externa da imagem pela construção de consultas camada por camada a partir de estados ocultos intermediários do ViT. Isso permite a predição de características em coordenadas contínuas arbitrárias da imagem, preservando o alinhamento com o espaço de características do backbone. Experimentos demonstram que o ViT-Up supera consistentemente os upsamplers guiados por imagem de última geração em predição densa e correspondência semântica. No DINOv3-S+, o ViT-Up melhora em relação aos métodos anteriores em até +2,07 mIoU no Cityscapes e +4,17 PCK@0,10 no SPair-71k. Com o backbone maior DINOv3-B, esses ganhos aumentam para +3,36 mIoU e +8,09 PCK@0,10, demonstrando que o ViT-Up escala favoravelmente com a capacidade do backbone.

English

Vision Transformers (ViTs) have become a dominant architecture for visual representation learning, providing exceptionally strong and broadly reusable backbone features. However, ViTs are commonly operated on relatively small patch-token grids due to the quadratic cost of global self-attention, which creates a persistent bottleneck for dense prediction tasks such as semantic segmentation and depth estimation. This has motivated the development of task-agnostic feature upsamplers. While recent state-of-the-art methods produce visually sharp dense representations, their reliance on shallow image encoders for guided upsampling can introduce feature leakage, fragmentation, and blur. We introduce ViT-Up, an implicit feature upsampling framework that replaces external image guidance with layer-wise query construction from intermediate ViT hidden states. This enables feature prediction at arbitrary continuous image coordinates while preserving alignment with the backbone feature space. Experiments demonstrate that ViT-Up consistently outperforms state-of-the-art image-guided upsamplers across dense prediction and semantic correspondence. On DINOv3-S+, ViT-Up improves over prior methods by up to +2.07 mIoU on Cityscapes and +4.17 PCK@0.10 on SPair-71k. With the larger DINOv3-B backbone, these gains increase to +3.36 mIoU and +8.09 PCK@0.10, demonstrating that ViT-Up scales favorably with backbone capacity.