NAF: Aumento de Resolução de Características sem Treinamento via Filtragem por Atenção de Vizinhança

Resumo

Os Modelos de Base Visuais (VFMs) extraem representações espacialmente reduzidas, o que impõe desafios para tarefas em nível de pixel. As abordagens existentes de upsampling enfrentam um dilema fundamental: os filtros clássicos são rápidos e amplamente aplicáveis, mas dependem de formas fixas, enquanto os métodos modernos alcançam precisão superior por meio de formas aprendíveis e específicas para cada VFM, ao custo de retreinamento para cada modelo. Apresentamos o Filtro de Atenção por Vizinhança (NAF), que preenche essa lacuna ao aprender pesos adaptativos espaciais e de conteúdo por meio da Atenção por Vizinhança entre Escalas e Embeddings de Posição Rotacionais (RoPE), guiados apenas pela imagem de alta resolução de entrada. O NAF opera de forma zero-shot: ele realiza upsampling de características de qualquer VFM sem retreinamento, tornando-se a primeira arquitetura independente de VFM a superar métodos específicos e alcançar desempenho de ponta em múltiplas tarefas downstream. Mantém alta eficiência, escalando para mapas de características de 2K e reconstruindo mapas de resolução intermediária a 18 FPS. Além do upsampling de características, o NAF demonstra forte desempenho em restauração de imagens, destacando sua versatilidade. Código e checkpoints estão disponíveis em https://github.com/valeoai/NAF.

English

Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.