JAFAR: Улучшение любой характеристики на любом уровне разрешения
JAFAR: Jack up Any Feature at Any Resolution
June 10, 2025
Авторы: Paul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome
cs.AI
Аннотация
Базовые кодировщики зрения стали неотъемлемыми для широкого спектра задач плотного зрения. Однако их низкоразрешающие пространственные выходные признаки требуют повышения разрешения для получения высокоразрешающих модальностей, необходимых для последующих задач. В данной работе мы представляем JAFAR — легковесный и гибкий модуль повышения разрешения признаков, который увеличивает пространственное разрешение визуальных признаков любого базового кодировщика зрения до произвольного целевого разрешения. JAFAR использует модуль на основе внимания, предназначенный для улучшения семантического соответствия между высокоразрешающими запросами, полученными из низкоуровневых признаков изображения, и семантически обогащенными низкоразрешающими ключами, с применением модуляции Spatial Feature Transform (SFT). Примечательно, что, несмотря на отсутствие высокоразрешающего обучения, мы демонстрируем, что обучение на низких коэффициентах повышения разрешения и разрешениях обобщается на значительно более высокие масштабы выходных данных. Многочисленные эксперименты показывают, что JAFAR эффективно восстанавливает детализированные пространственные элементы и стабильно превосходит существующие методы повышения разрешения признаков в разнообразных последующих задачах. Страница проекта доступна по адресу https://jafar-upsampler.github.io.
English
Foundation Vision Encoders have become essential for a wide range of dense
vision tasks. However, their low-resolution spatial feature outputs necessitate
feature upsampling to produce the high-resolution modalities required for
downstream tasks. In this work, we introduce JAFAR, a lightweight and flexible
feature upsampler that enhances the spatial resolution of visual features from
any Foundation Vision Encoder to an arbitrary target resolution. JAFAR employs
an attention-based module designed to promote semantic alignment between
high-resolution queries, derived from low-level image features, and
semantically enriched low-resolution keys, using Spatial Feature Transform
(SFT) modulation. Notably, despite the absence of high-resolution supervision,
we demonstrate that learning at low upsampling ratios and resolutions
generalizes remarkably well to significantly higher output scales. Extensive
experiments show that JAFAR effectively recovers fine-grained spatial details
and consistently outperforms existing feature upsampling methods across a
diverse set of downstream tasks. Project page at
https://jafar-upsampler.github.io