ChatPaper.aiChatPaper

LoftUp: Aprendizaje de un Muestreador Ascendente de Características Basado en Coordenadas para Modelos Fundamentales de Visión

LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

April 18, 2025
Autores: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI

Resumen

Los modelos fundamentales de visión (VFMs, por sus siglas en inglés) como DINOv2 y CLIP han logrado resultados impresionantes en diversas tareas posteriores, pero su limitada resolución de características dificulta su rendimiento en aplicaciones que requieren una comprensión a nivel de píxeles. El aumento de resolución de características ofrece una dirección prometedora para abordar este desafío. En este trabajo, identificamos dos factores críticos para mejorar el aumento de resolución de características: la arquitectura del aumentador y el objetivo de entrenamiento. Para la arquitectura del aumentador, introducimos un transformador de atención cruzada basado en coordenadas que integra las imágenes de alta resolución con coordenadas y características de VFM de baja resolución para generar características nítidas y de alta calidad. Para el objetivo de entrenamiento, proponemos construir características pseudo-verdad terreno de alta resolución aprovechando máscaras independientes de la clase y la auto-distilación. Nuestro enfoque captura eficazmente detalles finos y se adapta flexiblemente a diversas resoluciones de entrada y características. A través de experimentos, demostramos que nuestro enfoque supera significativamente las técnicas existentes de aumento de resolución de características en diversas tareas posteriores. Nuestro código está disponible en https://github.com/andrehuang/loftup.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved impressive results on various downstream tasks, but their limited feature resolution hampers performance in applications requiring pixel-level understanding. Feature upsampling offers a promising direction to address this challenge. In this work, we identify two critical factors for enhancing feature upsampling: the upsampler architecture and the training objective. For the upsampler architecture, we introduce a coordinate-based cross-attention transformer that integrates the high-resolution images with coordinates and low-resolution VFM features to generate sharp, high-quality features. For the training objective, we propose constructing high-resolution pseudo-groundtruth features by leveraging class-agnostic masks and self-distillation. Our approach effectively captures fine-grained details and adapts flexibly to various input and feature resolutions. Through experiments, we demonstrate that our approach significantly outperforms existing feature upsampling techniques across various downstream tasks. Our code is released at https://github.com/andrehuang/loftup.

Summary

AI-Generated Summary

PDF42April 22, 2025