NAF: 이웃 주의력 필터링을 통한 제로샷 특징 업샘플링
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering
November 23, 2025
저자: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord
cs.AI
초록
비전 파운데이션 모델(VFM)은 공간적으로 다운샘플링된 표현을 추출하여 픽셀 수준 작업에 어려움을 제기합니다. 기존 업샘플링 접근법은 근본적인 절충 관계에 직면해 있습니다: 고전적 필터는 빠르고 폭넓게 적용 가능하지만 고정된 형태에 의존하는 반면, 현대적 업샘플러는 학습 가능한 VFM 특화 형태를 통해 우수한 정확도를 달성하지만 각 VFM마다 재학습이 필요합니다. 본 연구는 이러한 간극을 해소하는 Neighborhood Attention Filtering(NAF)을 소개합니다. NAF는 Cross-Scale Neighborhood Attention과 Rotary Position Embeddings(RoPE)를 통해 적응형 공간-콘텐츠 가중치를 학습하며, 오직 고해상도 입력 이미지만으로 지도됩니다. NAF는 제로샷 방식으로 동작하여 어떠한 VFM의 특징맵도 재학습 없이 업샘플링하므로, VFM 특화 업샘플러를 능가하고 여러 다운스트림 작업에서 최첨단 성능을 달성하는 최초의 VFM-불가지론 아키텍처입니다. 또한 높은 효율성을 유지하며 2K 특징맵까지 확장 가능하고 중간 해상도 맵을 18 FPS로 재구성합니다. 특징 업샘플링을 넘어 NAF는 이미지 복원 작업에서도 강력한 성능을 보여 다재다능함을 입증합니다. 코드와 체크포인트는 https://github.com/valeoai/NAF에서 이용 가능합니다.
English
Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.