LoftUp: Het leren van een coördinaat-gebaseerde functie-upsampler voor visuele foundation-modellen
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
April 18, 2025
Auteurs: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI
Samenvatting
Vision foundation models (VFMs) zoals DINOv2 en CLIP hebben indrukwekkende resultaten behaald bij diverse downstream taken, maar hun beperkte feature-resolutie belemmert de prestaties in toepassingen die pixel-niveau begrip vereisen. Feature-upsampling biedt een veelbelovende richting om deze uitdaging aan te pakken. In dit werk identificeren we twee kritieke factoren voor het verbeteren van feature-upsampling: de architectuur van de upsampler en het trainingsdoel. Voor de architectuur van de upsampler introduceren we een op coördinaten gebaseerde cross-attention transformer die hoog-resolutie afbeeldingen integreert met coördinaten en laag-resolutie VFM-features om scherpe, hoogwaardige features te genereren. Voor het trainingsdoel stellen we voor om hoog-resolutie pseudo-grondtruth features te construeren door gebruik te maken van klasse-agnostische maskers en zelf-distillatie. Onze aanpak vangt effectief fijne details op en past zich flexibel aan aan diverse invoer- en feature-resoluties. Door experimenten tonen we aan dat onze aanpak bestaande feature-upsamplingtechnieken significant overtreft bij diverse downstream taken. Onze code is vrijgegeven op https://github.com/andrehuang/loftup.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved
impressive results on various downstream tasks, but their limited feature
resolution hampers performance in applications requiring pixel-level
understanding. Feature upsampling offers a promising direction to address this
challenge. In this work, we identify two critical factors for enhancing feature
upsampling: the upsampler architecture and the training objective. For the
upsampler architecture, we introduce a coordinate-based cross-attention
transformer that integrates the high-resolution images with coordinates and
low-resolution VFM features to generate sharp, high-quality features. For the
training objective, we propose constructing high-resolution pseudo-groundtruth
features by leveraging class-agnostic masks and self-distillation. Our approach
effectively captures fine-grained details and adapts flexibly to various input
and feature resolutions. Through experiments, we demonstrate that our approach
significantly outperforms existing feature upsampling techniques across various
downstream tasks. Our code is released at https://github.com/andrehuang/loftup.Summary
AI-Generated Summary