JAFAR: Aprimorar Qualquer Característica em Qualquer Resolução
JAFAR: Jack up Any Feature at Any Resolution
June 10, 2025
Autores: Paul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome
cs.AI
Resumo
Os codificadores de visão fundamentais tornaram-se essenciais para uma ampla gama de tarefas de visão densa. No entanto, suas saídas de características espaciais de baixa resolução exigem a ampliação de características para produzir as modalidades de alta resolução necessárias para tarefas subsequentes. Neste trabalho, apresentamos o JAFAR, um ampliador de características leve e flexível que melhora a resolução espacial de características visuais de qualquer codificador de visão fundamental para uma resolução alvo arbitrária. O JAFAR emprega um módulo baseado em atenção projetado para promover o alinhamento semântico entre consultas de alta resolução, derivadas de características de imagem de baixo nível, e chaves de baixa resolução semanticamente enriquecidas, utilizando modulação de Transformação de Características Espaciais (SFT). Notavelmente, apesar da ausência de supervisão de alta resolução, demonstramos que o aprendizado em razões de ampliação e resoluções baixas generaliza-se de forma notável para escalas de saída significativamente maiores. Experimentos extensivos mostram que o JAFAR recupera efetivamente detalhes espaciais refinados e supera consistentemente os métodos existentes de ampliação de características em um conjunto diversificado de tarefas subsequentes. Página do projeto em https://jafar-upsampler.github.io.
English
Foundation Vision Encoders have become essential for a wide range of dense
vision tasks. However, their low-resolution spatial feature outputs necessitate
feature upsampling to produce the high-resolution modalities required for
downstream tasks. In this work, we introduce JAFAR, a lightweight and flexible
feature upsampler that enhances the spatial resolution of visual features from
any Foundation Vision Encoder to an arbitrary target resolution. JAFAR employs
an attention-based module designed to promote semantic alignment between
high-resolution queries, derived from low-level image features, and
semantically enriched low-resolution keys, using Spatial Feature Transform
(SFT) modulation. Notably, despite the absence of high-resolution supervision,
we demonstrate that learning at low upsampling ratios and resolutions
generalizes remarkably well to significantly higher output scales. Extensive
experiments show that JAFAR effectively recovers fine-grained spatial details
and consistently outperforms existing feature upsampling methods across a
diverse set of downstream tasks. Project page at
https://jafar-upsampler.github.io