NAF: Upscaling delle Caratteristiche Zero-Shot tramite Filtraggio con Attenzione di Vicinato
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering
November 23, 2025
Autori: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord
cs.AI
Abstract
I Vision Foundation Model (VFM) estraggono rappresentazioni spazialmente sottocampionate, ponendo sfide per i compiti a livello di pixel. Gli approcci di upsampling esistenti affrontano un compromesso fondamentale: i filtri classici sono veloci e ampiamente applicabili ma si basano su forme fisse, mentre gli upsampler moderni raggiungono un'accuratezza superiore attraverso forme apprendibili e specifiche per il VFM, al costo di un riaddestramento per ogni modello. Introduciamo il Neighborhood Attention Filtering (NAF), che colma questa lacuna apprendendo pesi spaziali e di contenuto adattivi attraverso la Cross-Scale Neighborhood Attention e i Rotary Position Embeddings (RoPE), guidati unicamente dall'immagine di input ad alta risoluzione. NAF opera in modalità zero-shot: effettua l'upsampling delle feature da qualsiasi VFM senza riaddestramento, rendendolo la prima architettura VFM-agnostica a superare gli upsampler specifici per VFM e a raggiungere prestazioni allo stato dell'arte in molteplici attività downstream. Mantiene un'elevata efficienza, scalando su mappe di feature 2K e ricostruendo mappe a risoluzione intermedia a 18 FPS. Oltre all'upsampling di feature, NAF dimostra ottime prestazioni nel restauro di immagini, evidenziandone la versatilità. Codice e checkpoint sono disponibili su https://github.com/valeoai/NAF.
English
Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.