NAF: Aumento de Resolución de Características sin Entrenamiento mediante Filtrado de Atención por Vecindario
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering
November 23, 2025
Autores: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord
cs.AI
Resumen
Los Modelos de Base de Visión (VFMs) extraen representaciones espacialmente submuestreadas, lo que plantea desafíos para las tareas a nivel de píxel. Los enfoques de sobremuestreo existentes enfrentan una disyuntiva fundamental: los filtros clásicos son rápidos y ampliamente aplicables pero se basan en formas fijas, mientras que los sobremuestreadores modernos logran una precisión superior mediante formas aprendibles y específicas del VFM a costa de reentrenar para cada VFM. Presentamos Filtrado por Atención de Vecindario (NAF), que salva esta brecha aprendiendo pesos espaciales y de contenido adaptativos mediante Atención de Vecindario Multi-Escala y Codificaciones de Posición Rotatorias (RoPE), guiado únicamente por la imagen de entrada de alta resolución. NAF opera en modo cero-shot: sobremuestrea características de cualquier VFM sin reentrenamiento, convirtiéndose en la primera arquitectura agnóstica a VFM que supera a los sobremuestreadores específicos de VFM y logra un rendimiento de vanguardia en múltiples tareas secundarias. Mantiene una alta eficiencia, escalando a mapas de características de 2K y reconstruyendo mapas de resolución intermedia a 18 FPS. Más allá del sobremuestreo de características, NAF demuestra un fuerte rendimiento en restauración de imágenes, destacando su versatilidad. El código y los puntos de control están disponibles en https://github.com/valeoai/NAF.
English
Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.