LoftUp: Aprendendo um Upsampler de Características Baseado em Coordenadas para Modelos de Visão Fundamentais
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
April 18, 2025
Autores: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI
Resumo
Modelos de base de visão (VFMs), como DINOv2 e CLIP, alcançaram resultados impressionantes em diversas tarefas subsequentes, mas sua resolução limitada de características prejudica o desempenho em aplicações que exigem compreensão em nível de pixel. A interpolação de características oferece uma direção promissora para abordar esse desafio. Neste trabalho, identificamos dois fatores críticos para aprimorar a interpolação de características: a arquitetura do interpolador e o objetivo de treinamento. Para a arquitetura do interpolador, introduzimos um transformador de atenção cruzada baseado em coordenadas que integra imagens de alta resolução com coordenadas e características de baixa resolução do VFM para gerar características nítidas e de alta qualidade. Para o objetivo de treinamento, propomos a construção de características pseudo-ground truth de alta resolução, aproveitando máscaras agnósticas de classe e auto-distilação. Nossa abordagem captura efetivamente detalhes refinados e se adapta de forma flexível a várias resoluções de entrada e de características. Por meio de experimentos, demonstramos que nossa abordagem supera significativamente as técnicas existentes de interpolação de características em diversas tarefas subsequentes. Nosso código está disponível em https://github.com/andrehuang/loftup.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved
impressive results on various downstream tasks, but their limited feature
resolution hampers performance in applications requiring pixel-level
understanding. Feature upsampling offers a promising direction to address this
challenge. In this work, we identify two critical factors for enhancing feature
upsampling: the upsampler architecture and the training objective. For the
upsampler architecture, we introduce a coordinate-based cross-attention
transformer that integrates the high-resolution images with coordinates and
low-resolution VFM features to generate sharp, high-quality features. For the
training objective, we propose constructing high-resolution pseudo-groundtruth
features by leveraging class-agnostic masks and self-distillation. Our approach
effectively captures fine-grained details and adapts flexibly to various input
and feature resolutions. Through experiments, we demonstrate that our approach
significantly outperforms existing feature upsampling techniques across various
downstream tasks. Our code is released at https://github.com/andrehuang/loftup.