ChatPaper.aiChatPaper

LoftUp: Обучение координатно-ориентированного апсемплера признаков для базовых моделей компьютерного зрения

LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

April 18, 2025
Авторы: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
cs.AI

Аннотация

Модели компьютерного зрения (Vision Foundation Models, VFMs), такие как DINOv2 и CLIP, достигли впечатляющих результатов в различных задачах, но их ограниченное разрешение признаков снижает производительность в приложениях, требующих понимания на уровне пикселей. Увеличение разрешения признаков предлагает перспективное направление для решения этой проблемы. В данной работе мы выделяем два ключевых фактора для улучшения увеличения разрешения признаков: архитектуру апсемплера и целевую функцию обучения. Для архитектуры апсемплера мы представляем трансформер с кросс-вниманием на основе координат, который интегрирует изображения высокого разрешения с координатами и признаками VFM низкого разрешения для генерации четких и качественных признаков. Для целевой функции обучения мы предлагаем создание псевдо-опорных признаков высокого разрешения с использованием масок, не зависящих от классов, и метода самодистилляции. Наш подход эффективно захватывает мелкие детали и гибко адаптируется к различным входным данным и разрешениям признаков. Эксперименты показывают, что наш подход значительно превосходит существующие методы увеличения разрешения признаков в различных задачах. Наш код доступен по адресу https://github.com/andrehuang/loftup.
English
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved impressive results on various downstream tasks, but their limited feature resolution hampers performance in applications requiring pixel-level understanding. Feature upsampling offers a promising direction to address this challenge. In this work, we identify two critical factors for enhancing feature upsampling: the upsampler architecture and the training objective. For the upsampler architecture, we introduce a coordinate-based cross-attention transformer that integrates the high-resolution images with coordinates and low-resolution VFM features to generate sharp, high-quality features. For the training objective, we propose constructing high-resolution pseudo-groundtruth features by leveraging class-agnostic masks and self-distillation. Our approach effectively captures fine-grained details and adapts flexibly to various input and feature resolutions. Through experiments, we demonstrate that our approach significantly outperforms existing feature upsampling techniques across various downstream tasks. Our code is released at https://github.com/andrehuang/loftup.

Summary

AI-Generated Summary

PDF42April 22, 2025