ChatPaper.aiChatPaper

JAFAR: Mejora Cualquier Característica a Cualquier Resolución

JAFAR: Jack up Any Feature at Any Resolution

June 10, 2025
Autores: Paul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome
cs.AI

Resumen

Los codificadores de visión base se han vuelto esenciales para una amplia gama de tareas de visión densa. Sin embargo, sus salidas de características espaciales de baja resolución requieren un muestreo ascendente de características para producir las modalidades de alta resolución necesarias para las tareas posteriores. En este trabajo, presentamos JAFAR, un muestreador ascendente de características ligero y flexible que mejora la resolución espacial de las características visuales de cualquier codificador de visión base a una resolución objetivo arbitraria. JAFAR emplea un módulo basado en atención diseñado para promover la alineación semántica entre consultas de alta resolución, derivadas de características de imagen de bajo nivel, y claves de baja resolución enriquecidas semánticamente, utilizando modulación de Transformación de Características Espaciales (SFT). Notablemente, a pesar de la ausencia de supervisión de alta resolución, demostramos que el aprendizaje en relaciones de muestreo ascendente y resoluciones bajas generaliza notablemente bien a escalas de salida significativamente más altas. Experimentos extensos muestran que JAFAR recupera efectivamente detalles espaciales finos y supera consistentemente los métodos existentes de muestreo ascendente de características en un conjunto diverso de tareas posteriores. Página del proyecto en https://jafar-upsampler.github.io.
English
Foundation Vision Encoders have become essential for a wide range of dense vision tasks. However, their low-resolution spatial feature outputs necessitate feature upsampling to produce the high-resolution modalities required for downstream tasks. In this work, we introduce JAFAR, a lightweight and flexible feature upsampler that enhances the spatial resolution of visual features from any Foundation Vision Encoder to an arbitrary target resolution. JAFAR employs an attention-based module designed to promote semantic alignment between high-resolution queries, derived from low-level image features, and semantically enriched low-resolution keys, using Spatial Feature Transform (SFT) modulation. Notably, despite the absence of high-resolution supervision, we demonstrate that learning at low upsampling ratios and resolutions generalizes remarkably well to significantly higher output scales. Extensive experiments show that JAFAR effectively recovers fine-grained spatial details and consistently outperforms existing feature upsampling methods across a diverse set of downstream tasks. Project page at https://jafar-upsampler.github.io
PDF82June 16, 2025