LoftUp: Lernen eines koordinatenbasierten Feature-Upsamplers für Vision-Foundation-Modelle
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
April 18, 2025
Autoren: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI
Zusammenfassung
Vision Foundation Models (VFMs) wie DINOv2 und CLIP haben beeindruckende Ergebnisse bei verschiedenen Downstream-Aufgaben erzielt, doch ihre begrenzte Feature-Auflösung beeinträchtigt die Leistung in Anwendungen, die ein pixelgenaues Verständnis erfordern. Feature-Upsampling bietet eine vielversprechende Richtung, um diese Herausforderung zu bewältigen. In dieser Arbeit identifizieren wir zwei kritische Faktoren zur Verbesserung des Feature-Upsamplings: die Architektur des Upsamplers und das Trainingsziel. Für die Architektur des Upsamplers führen wir einen koordinatenbasierten Cross-Attention-Transformer ein, der hochauflösende Bilder mit Koordinaten und niedrigauflösenden VFM-Features integriert, um scharfe, hochwertige Features zu erzeugen. Für das Trainingsziel schlagen wir vor, hochauflösende Pseudo-Groundtruth-Features durch die Nutzung von klassenagnostischen Masken und Selbst-Distillation zu konstruieren. Unser Ansatz erfasst effektiv feinste Details und passt sich flexibel an verschiedene Eingabe- und Feature-Auflösungen an. Durch Experimente zeigen wir, dass unser Ansatz bestehende Feature-Upsampling-Techniken bei verschiedenen Downstream-Aufgaben deutlich übertrifft. Unser Code ist unter https://github.com/andrehuang/loftup veröffentlicht.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved
impressive results on various downstream tasks, but their limited feature
resolution hampers performance in applications requiring pixel-level
understanding. Feature upsampling offers a promising direction to address this
challenge. In this work, we identify two critical factors for enhancing feature
upsampling: the upsampler architecture and the training objective. For the
upsampler architecture, we introduce a coordinate-based cross-attention
transformer that integrates the high-resolution images with coordinates and
low-resolution VFM features to generate sharp, high-quality features. For the
training objective, we propose constructing high-resolution pseudo-groundtruth
features by leveraging class-agnostic masks and self-distillation. Our approach
effectively captures fine-grained details and adapts flexibly to various input
and feature resolutions. Through experiments, we demonstrate that our approach
significantly outperforms existing feature upsampling techniques across various
downstream tasks. Our code is released at https://github.com/andrehuang/loftup.Summary
AI-Generated Summary