LoftUp: Apprendimento di un Upsampler di Feature Basato su Coordinate per Modelli Fondamentali di Visione
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
April 18, 2025
Autori: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI
Abstract
I modelli di base per la visione (Vision Foundation Models, VFM) come DINOv2 e CLIP hanno ottenuto risultati impressionanti in vari task downstream, ma la loro limitata risoluzione delle feature ostacola le prestazioni nelle applicazioni che richiedono una comprensione a livello di pixel. L'upsampling delle feature rappresenta una direzione promettente per affrontare questa sfida. In questo lavoro, identifichiamo due fattori critici per migliorare l'upsampling delle feature: l'architettura dell'upsampler e l'obiettivo di training. Per l'architettura dell'upsampler, introduciamo un trasformatore basato su cross-attention con coordinate che integra le immagini ad alta risoluzione con le coordinate e le feature a bassa risoluzione dei VFM per generare feature nitide e di alta qualità. Per l'obiettivo di training, proponiamo la costruzione di feature pseudo-groundtruth ad alta risoluzione sfruttando maschere class-agnostic e la self-distillation. Il nostro approccio cattura efficacemente dettagli fini e si adatta in modo flessibile a varie risoluzioni di input e feature. Attraverso esperimenti, dimostriamo che il nostro approccio supera significativamente le tecniche esistenti di upsampling delle feature in vari task downstream. Il nostro codice è disponibile all'indirizzo https://github.com/andrehuang/loftup.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved
impressive results on various downstream tasks, but their limited feature
resolution hampers performance in applications requiring pixel-level
understanding. Feature upsampling offers a promising direction to address this
challenge. In this work, we identify two critical factors for enhancing feature
upsampling: the upsampler architecture and the training objective. For the
upsampler architecture, we introduce a coordinate-based cross-attention
transformer that integrates the high-resolution images with coordinates and
low-resolution VFM features to generate sharp, high-quality features. For the
training objective, we propose constructing high-resolution pseudo-groundtruth
features by leveraging class-agnostic masks and self-distillation. Our approach
effectively captures fine-grained details and adapts flexibly to various input
and feature resolutions. Through experiments, we demonstrate that our approach
significantly outperforms existing feature upsampling techniques across various
downstream tasks. Our code is released at https://github.com/andrehuang/loftup.Summary
AI-Generated Summary