ChatPaper.aiChatPaper

NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

November 23, 2025
Auteurs: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord
cs.AI

Samenvatting

Vision Foundation Models (VFMs) extraheren ruimtelijk gedownsamplede representaties, wat uitdagingen oplevert voor pixelniveau-taken. Bestaande upsamplingbenaderingen kampen met een fundamentele afweging: klassieke filters zijn snel en breed toepasbaar maar steunen op vaste vormen, terwijl moderne upsamplers superieure nauwkeurigheid bereiken via leerbare, VFM-specifieke vormen ten koste van hertraining voor elke VFM. Wij introduceren Neighborhood Attention Filtering (NAF), dat deze kloof overbrugt door adaptieve ruimtelijk-inhoudelijke gewichten te leren via Cross-Scale Neighborhood Attention en Rotary Position Embeddings (RoPE), uitsluitend geleid door de hoogresolutie-invoerafbeelding. NAF opereert zero-shot: het upsamplet features van elke VFM zonder hertraining, waardoor het het eerste VFM-agnostische architectuur is dat VFM-specifieke upsamplers overtreft en state-of-the-art prestaties behaalt in meerdere downstreamtaken. Het behoudt hoge efficiëntie, schaalt naar 2K-featuremaps en reconstrueert intermediate-resolutiemaps met 18 FPS. Naast feature-upsampling toont NAF sterke prestaties in beeldrestoratie, wat zijn veelzijdigheid onderstreept. Code en checkpoints zijn beschikbaar op https://github.com/valeoai/NAF.
English
Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.
PDF24December 1, 2025