LoftUp : Apprentissage d'un suréchantillonneur de caractéristiques basé sur les coordonnées pour les modèles de fondation en vision
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
April 18, 2025
Auteurs: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI
Résumé
Les modèles de fondation visuelle (VFMs) tels que DINOv2 et CLIP ont obtenu des résultats impressionnants sur diverses tâches en aval, mais leur résolution de caractéristiques limitée entrave les performances dans les applications nécessitant une compréhension au niveau des pixels. Le suréchantillonnage des caractéristiques offre une direction prometteuse pour relever ce défi. Dans ce travail, nous identifions deux facteurs critiques pour améliorer le suréchantillonnage des caractéristiques : l'architecture du suréchantillonneur et l'objectif d'entraînement. Pour l'architecture du suréchantillonneur, nous introduisons un transformeur à attention croisée basé sur les coordonnées qui intègre les images haute résolution avec les coordonnées et les caractéristiques VFM basse résolution pour générer des caractéristiques nettes et de haute qualité. Pour l'objectif d'entraînement, nous proposons de construire des caractéristiques pseudo-vérité terrain haute résolution en exploitant des masques agnostiques à la classe et l'auto-distillation. Notre approche capture efficacement les détails fins et s'adapte de manière flexible à diverses résolutions d'entrée et de caractéristiques. À travers des expériences, nous démontrons que notre approche surpasse significativement les techniques existantes de suréchantillonnage des caractéristiques sur diverses tâches en aval. Notre code est disponible à l'adresse https://github.com/andrehuang/loftup.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved
impressive results on various downstream tasks, but their limited feature
resolution hampers performance in applications requiring pixel-level
understanding. Feature upsampling offers a promising direction to address this
challenge. In this work, we identify two critical factors for enhancing feature
upsampling: the upsampler architecture and the training objective. For the
upsampler architecture, we introduce a coordinate-based cross-attention
transformer that integrates the high-resolution images with coordinates and
low-resolution VFM features to generate sharp, high-quality features. For the
training objective, we propose constructing high-resolution pseudo-groundtruth
features by leveraging class-agnostic masks and self-distillation. Our approach
effectively captures fine-grained details and adapts flexibly to various input
and feature resolutions. Through experiments, we demonstrate that our approach
significantly outperforms existing feature upsampling techniques across various
downstream tasks. Our code is released at https://github.com/andrehuang/loftup.Summary
AI-Generated Summary