Частотно-динамическая свертка для плотного предсказания изображений

Аннотация

Хотя динамическая свертка (DY-Conv) демонстрирует многообещающие результаты благодаря адаптивному выбору весов через использование нескольких параллельных весов, объединенных с механизмом внимания, частотные характеристики этих весов часто оказываются схожими, что приводит к высоким затратам на параметры при ограниченной адаптируемости. В данной работе мы представляем частотную динамическую свертку (FDConv) — новый подход, который устраняет эти ограничения путем обучения фиксированного бюджета параметров в частотной области. FDConv разделяет этот бюджет на группы, основанные на частоте, с непересекающимися индексами Фурье, что позволяет создавать веса с разнообразными частотными характеристиками без увеличения затрат на параметры. Для дальнейшего повышения адаптируемости мы предлагаем модуляцию пространства ядра (KSM) и модуляцию частотных полос (FBM). KSM динамически регулирует частотные характеристики каждого фильтра на пространственном уровне, в то время как FBM разлагает веса на отдельные частотные полосы в частотной области и динамически модулирует их на основе локального содержимого. Многочисленные эксперименты в задачах детекции объектов, сегментации и классификации подтверждают эффективность FDConv. Мы показываем, что при применении к ResNet-50 FDConv достигает превосходных результатов с умеренным увеличением параметров на +3,6M, превосходя предыдущие методы, требующие значительного увеличения бюджета параметров (например, CondConv +90M, KW +76,5M). Более того, FDConv легко интегрируется в различные архитектуры, включая ConvNeXt и Swin-Transformer, предлагая гибкое и эффективное решение для современных задач компьютерного зрения. Код доступен по адресу https://github.com/Linwei-Chen/FDConv.

English

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

Частотно-динамическая свертка для плотного предсказания изображений

Frequency Dynamic Convolution for Dense Image Prediction

Аннотация

Support