ChatPaper.aiChatPaper

NAF : Suréchantillonnage de caractéristiques sans apprentissage par filtrage à attention de voisinage

NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

November 23, 2025
papers.authors: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord
cs.AI

papers.abstract

Les modèles de fondation visuels (VFMs) extraient des représentations sous-échantillonnées spatialement, ce qui pose des défis pour les tâches au niveau pixel. Les approches de suréchantillonnage existantes présentent un compromis fondamental : les filtres classiques sont rapides et largement applicables mais reposent sur des formes fixes, tandis que les suréchantillonneurs modernes atteignent une précision supérieure grâce à des formes apprenables spécifiques aux VFM au prix d'un réentraînement pour chaque modèle. Nous présentons le Filtrage par Attention de Voisinage (NAF), qui comble cet écart en apprenant des poids adaptatifs spatiaux-et-de-contenu via l'Attention de Voisinage Multi-Échelle et les encodages positionnels rotatifs (RoPE), guidé uniquement par l'image d'entrée haute résolution. NAF fonctionne en zéro-shot : il suréchantillonne les caractéristiques de n'importe quel VFM sans réentraînement, ce qui en fait la première architecture agnostique aux VFM à surpasser les suréchantillonneurs spécifiques et à atteindre des performances de pointe sur plusieurs tâches en aval. Il maintient une haute efficacité, pouvant traiter des cartes de caractéristiques 2K et reconstruire des cartes de résolution intermédiaire à 18 FPS. Au-delà du suréchantillonnage de caractéristiques, NAF démontre de solides performances en restauration d'image, soulignant sa polyvalence. Le code et les points de contrôle sont disponibles à l'adresse https://github.com/valeoai/NAF.
English
Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.
PDF24December 1, 2025