ChatPaper.aiChatPaper

LoftUp: Apprendimento di un Upsampler di Feature Basato su Coordinate per Modelli Fondamentali di Visione

LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

April 18, 2025
Autori: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI

Abstract

I modelli di base per la visione (Vision Foundation Models, VFM) come DINOv2 e CLIP hanno ottenuto risultati impressionanti in vari task downstream, ma la loro limitata risoluzione delle feature ostacola le prestazioni nelle applicazioni che richiedono una comprensione a livello di pixel. L'upsampling delle feature rappresenta una direzione promettente per affrontare questa sfida. In questo lavoro, identifichiamo due fattori critici per migliorare l'upsampling delle feature: l'architettura dell'upsampler e l'obiettivo di training. Per l'architettura dell'upsampler, introduciamo un trasformatore basato su cross-attention con coordinate che integra le immagini ad alta risoluzione con le coordinate e le feature a bassa risoluzione dei VFM per generare feature nitide e di alta qualità. Per l'obiettivo di training, proponiamo la costruzione di feature pseudo-groundtruth ad alta risoluzione sfruttando maschere class-agnostic e la self-distillation. Il nostro approccio cattura efficacemente dettagli fini e si adatta in modo flessibile a varie risoluzioni di input e feature. Attraverso esperimenti, dimostriamo che il nostro approccio supera significativamente le tecniche esistenti di upsampling delle feature in vari task downstream. Il nostro codice è disponibile all'indirizzo https://github.com/andrehuang/loftup.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved impressive results on various downstream tasks, but their limited feature resolution hampers performance in applications requiring pixel-level understanding. Feature upsampling offers a promising direction to address this challenge. In this work, we identify two critical factors for enhancing feature upsampling: the upsampler architecture and the training objective. For the upsampler architecture, we introduce a coordinate-based cross-attention transformer that integrates the high-resolution images with coordinates and low-resolution VFM features to generate sharp, high-quality features. For the training objective, we propose constructing high-resolution pseudo-groundtruth features by leveraging class-agnostic masks and self-distillation. Our approach effectively captures fine-grained details and adapts flexibly to various input and feature resolutions. Through experiments, we demonstrate that our approach significantly outperforms existing feature upsampling techniques across various downstream tasks. Our code is released at https://github.com/andrehuang/loftup.

Summary

AI-Generated Summary

PDF42April 22, 2025