ChatPaper.aiChatPaper

NAF: Масштабирование признаков без обучения с помощью фильтрации с соседним вниманием

NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

November 23, 2025
Авторы: Loick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord
cs.AI

Аннотация

Модели-основы компьютерного зрения (Vision Foundation Models, VFM) извлекают пространственно уменьшенные представления, что создает трудности для задач на уровне пикселей. Существующие подходы к увеличению разрешения сталкиваются с фундаментальным компромиссом: классические фильтры быстры и универсально применимы, но основаны на фиксированных формах, тогда как современные апсэмплеры достигают превосходной точности за счет обучаемых, специфичных для VFM форм, ценой необходимости переобучения для каждой модели. Мы представляем Neighborhood Attention Filtering (NAF) — метод, который устраняет этот разрыв, обучая адаптивные пространственно-содержательные веса с помощью Cross-Scale Neighborhood Attention и Rotary Position Embeddings (RoPE), используя в качестве ориентира только входное изображение высокого разрешения. NAF работает в режиме zero-shot: он увеличивает разрешение признаков из любой VFM без переобучения, что делает его первой архитектурой, не зависящей от конкретной VFM, которая превосходит специализированные апсэмплеры и достигает наилучших результатов в различных downstream-задачах. Метод сохраняет высокую эффективность, масштабируясь до карт признаков разрешением 2K и восстанавливая карты промежуточного разрешения со скоростью 18 кадров в секунду. Помимо увеличения разрешения признаков, NAF демонстрирует высокую производительность в задачах восстановления изображений, что подчеркивает его универсальность. Код и чекпоинты доступны по адресу https://github.com/valeoai/NAF.
English
Vision Foundation Models (VFMs) extract spatially downsampled representations, posing challenges for pixel-level tasks. Existing upsampling approaches face a fundamental trade-off: classical filters are fast and broadly applicable but rely on fixed forms, while modern upsamplers achieve superior accuracy through learnable, VFM-specific forms at the cost of retraining for each VFM. We introduce Neighborhood Attention Filtering (NAF), which bridges this gap by learning adaptive spatial-and-content weights through Cross-Scale Neighborhood Attention and Rotary Position Embeddings (RoPE), guided solely by the high-resolution input image. NAF operates zero-shot: it upsamples features from any VFM without retraining, making it the first VFM-agnostic architecture to outperform VFM-specific upsamplers and achieve state-of-the-art performance across multiple downstream tasks. It maintains high efficiency, scaling to 2K feature maps and reconstructing intermediate-resolution maps at 18 FPS. Beyond feature upsampling, NAF demonstrates strong performance on image restoration, highlighting its versatility. Code and checkpoints are available at https://github.com/valeoai/NAF.
PDF24December 1, 2025