ChatPaper.aiChatPaper

NAF: Null-Shot-Featureupsampling durch Nachbarschafts-Aufmerksamkeitsfilterung

NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

November 23, 2025
papers.authors: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord
cs.AI

papers.abstract

Vision Foundation Models (VFMs) extrahieren räumlich herunterskaliierte Repräsentationen, was Herausforderungen für Pixel-basierte Aufgaben darstellt. Bestehende Upsampling-Ansätze stehen vor einem grundlegenden Zielkonflikt: Klassische Filter sind schnell und breit anwendbar, basieren jedoch auf festen Formen, während moderne Upsampler durch lernbare, VFM-spezifische Formen eine überlegene Genauigkeit erreichen – allerdings um den Preis einer Neuberechnung für jedes VFM. Wir stellen Neighborhood Attention Filtering (NAF) vor, das diese Lücke schließt, indem es adaptive raum- und inhaltsbasierte Gewichtungen durch Cross-Scale Neighborhood Attention und Rotary Position Embeddings (RoPE) lernt, geleitet ausschließlich durch das hochaufgelöste Eingabebild. NAF arbeitet Zero-Shot: Es skaliert Features jedes VFM ohne Neuberechnung hoch und ist damit die erste VFM-agnostische Architektur, die VFM-spezifische Upsampler übertrifft und state-of-the-art Leistung in mehreren Downstream-Aufgaben erzielt. Es behält eine hohe Effizienz bei, skaliert auf 2K-Feature-Maps und rekonstruiert Karten mittlerer Auflösung mit 18 FPS. Über Feature-Upsampling hinaus zeigt NAF starke Leistung in der Bildrestaurierung, was seine Vielseitigkeit unterstreicht. Code und Checkpoints sind verfügbar unter https://github.com/valeoai/NAF.
English
Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.
PDF24December 1, 2025