JAFAR: Aprimorar Qualquer Característica em Qualquer Resolução

Resumo

Os codificadores de visão fundamentais tornaram-se essenciais para uma ampla gama de tarefas de visão densa. No entanto, suas saídas de características espaciais de baixa resolução exigem a ampliação de características para produzir as modalidades de alta resolução necessárias para tarefas subsequentes. Neste trabalho, apresentamos o JAFAR, um ampliador de características leve e flexível que melhora a resolução espacial de características visuais de qualquer codificador de visão fundamental para uma resolução alvo arbitrária. O JAFAR emprega um módulo baseado em atenção projetado para promover o alinhamento semântico entre consultas de alta resolução, derivadas de características de imagem de baixo nível, e chaves de baixa resolução semanticamente enriquecidas, utilizando modulação de Transformação de Características Espaciais (SFT). Notavelmente, apesar da ausência de supervisão de alta resolução, demonstramos que o aprendizado em razões de ampliação e resoluções baixas generaliza-se de forma notável para escalas de saída significativamente maiores. Experimentos extensivos mostram que o JAFAR recupera efetivamente detalhes espaciais refinados e supera consistentemente os métodos existentes de ampliação de características em um conjunto diversificado de tarefas subsequentes. Página do projeto em https://jafar-upsampler.github.io.

English

Foundation Vision Encoders have become essential for a wide range of dense vision tasks. However, their low-resolution spatial feature outputs necessitate feature upsampling to produce the high-resolution modalities required for downstream tasks. In this work, we introduce JAFAR, a lightweight and flexible feature upsampler that enhances the spatial resolution of visual features from any Foundation Vision Encoder to an arbitrary target resolution. JAFAR employs an attention-based module designed to promote semantic alignment between high-resolution queries, derived from low-level image features, and semantically enriched low-resolution keys, using Spatial Feature Transform (SFT) modulation. Notably, despite the absence of high-resolution supervision, we demonstrate that learning at low upsampling ratios and resolutions generalizes remarkably well to significantly higher output scales. Extensive experiments show that JAFAR effectively recovers fine-grained spatial details and consistently outperforms existing feature upsampling methods across a diverse set of downstream tasks. Project page at https://jafar-upsampler.github.io

JAFAR: Aprimorar Qualquer Característica em Qualquer Resolução

JAFAR: Jack up Any Feature at Any Resolution

Resumo

Support