ChatPaper.aiChatPaper

NAF: 近傍注意フィルタリングによるゼロショット特徴アップサンプリング

NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

November 23, 2025
著者: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord
cs.AI

要旨

Vision Foundation Models(VFM)は、空間的にダウンサンプリングされた表現を抽出するため、ピクセルレベルのタスクに課題をもたらします。既存のアップサンプリング手法は、根本的なトレードオフに直面しています。古典的なフィルタは高速で広範に適用可能ですが固定形式に依存し、現代のアップサンプラは学習可能なVFM特化型の形式により優れた精度を達成するものの、各VFMごとの再訓練というコストが伴います。本研究では、Neighborhood Attention Filtering(NAF)を提案します。NAFは、高解像度入力画像のみをガイドとして、Cross-Scale Neighborhood AttentionとRotary Position Embeddings(RoPE)を通じて適応的な空間・内容重みを学習することで、この隔たりを埋めます。NAFはゼロショットで動作し、任意のVFMからの特徴を再訓練なしでアップサンプリングします。これにより、VFM特化型アップサンプラを凌駕し、複数のダウンストリームタスクでState-of-the-Art性能を達成する、初のVFM非依存アーキテクチャとなります。高い効率性を維持し、2K特徴マップへのスケーリングや、中間解像度マップの18 FPSでの再構成を実現します。特徴アップサンプリングを超えて、NAFは画像復元タスクでも強力な性能を示し、その汎用性を強調しています。コードとチェックポイントはhttps://github.com/valeoai/NAF で公開されています。
English
Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.
PDF24December 1, 2025