ChatPaper.aiChatPaper

LoftUp : Apprentissage d'un suréchantillonneur de caractéristiques basé sur les coordonnées pour les modèles de fondation en vision

LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

April 18, 2025
Auteurs: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI

Résumé

Les modèles de fondation visuelle (VFMs) tels que DINOv2 et CLIP ont obtenu des résultats impressionnants sur diverses tâches en aval, mais leur résolution de caractéristiques limitée entrave les performances dans les applications nécessitant une compréhension au niveau des pixels. Le suréchantillonnage des caractéristiques offre une direction prometteuse pour relever ce défi. Dans ce travail, nous identifions deux facteurs critiques pour améliorer le suréchantillonnage des caractéristiques : l'architecture du suréchantillonneur et l'objectif d'entraînement. Pour l'architecture du suréchantillonneur, nous introduisons un transformeur à attention croisée basé sur les coordonnées qui intègre les images haute résolution avec les coordonnées et les caractéristiques VFM basse résolution pour générer des caractéristiques nettes et de haute qualité. Pour l'objectif d'entraînement, nous proposons de construire des caractéristiques pseudo-vérité terrain haute résolution en exploitant des masques agnostiques à la classe et l'auto-distillation. Notre approche capture efficacement les détails fins et s'adapte de manière flexible à diverses résolutions d'entrée et de caractéristiques. À travers des expériences, nous démontrons que notre approche surpasse significativement les techniques existantes de suréchantillonnage des caractéristiques sur diverses tâches en aval. Notre code est disponible à l'adresse https://github.com/andrehuang/loftup.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved impressive results on various downstream tasks, but their limited feature resolution hampers performance in applications requiring pixel-level understanding. Feature upsampling offers a promising direction to address this challenge. In this work, we identify two critical factors for enhancing feature upsampling: the upsampler architecture and the training objective. For the upsampler architecture, we introduce a coordinate-based cross-attention transformer that integrates the high-resolution images with coordinates and low-resolution VFM features to generate sharp, high-quality features. For the training objective, we propose constructing high-resolution pseudo-groundtruth features by leveraging class-agnostic masks and self-distillation. Our approach effectively captures fine-grained details and adapts flexibly to various input and feature resolutions. Through experiments, we demonstrate that our approach significantly outperforms existing feature upsampling techniques across various downstream tasks. Our code is released at https://github.com/andrehuang/loftup.

Summary

AI-Generated Summary

PDF42April 22, 2025