Частотно-динамическая свертка для плотного предсказания изображений
Frequency Dynamic Convolution for Dense Image Prediction
March 24, 2025
Авторы: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
cs.AI
Аннотация
Хотя динамическая свертка (DY-Conv) демонстрирует многообещающие результаты благодаря адаптивному выбору весов через использование нескольких параллельных весов, объединенных с механизмом внимания, частотные характеристики этих весов часто оказываются схожими, что приводит к высоким затратам на параметры при ограниченной адаптируемости. В данной работе мы представляем частотную динамическую свертку (FDConv) — новый подход, который устраняет эти ограничения путем обучения фиксированного бюджета параметров в частотной области. FDConv разделяет этот бюджет на группы, основанные на частоте, с непересекающимися индексами Фурье, что позволяет создавать веса с разнообразными частотными характеристиками без увеличения затрат на параметры. Для дальнейшего повышения адаптируемости мы предлагаем модуляцию пространства ядра (KSM) и модуляцию частотных полос (FBM). KSM динамически регулирует частотные характеристики каждого фильтра на пространственном уровне, в то время как FBM разлагает веса на отдельные частотные полосы в частотной области и динамически модулирует их на основе локального содержимого. Многочисленные эксперименты в задачах детекции объектов, сегментации и классификации подтверждают эффективность FDConv. Мы показываем, что при применении к ResNet-50 FDConv достигает превосходных результатов с умеренным увеличением параметров на +3,6M, превосходя предыдущие методы, требующие значительного увеличения бюджета параметров (например, CondConv +90M, KW +76,5M). Более того, FDConv легко интегрируется в различные архитектуры, включая ConvNeXt и Swin-Transformer, предлагая гибкое и эффективное решение для современных задач компьютерного зрения. Код доступен по адресу https://github.com/Linwei-Chen/FDConv.
English
While Dynamic Convolution (DY-Conv) has shown promising performance by
enabling adaptive weight selection through multiple parallel weights combined
with an attention mechanism, the frequency response of these weights tends to
exhibit high similarity, resulting in high parameter costs but limited
adaptability. In this work, we introduce Frequency Dynamic Convolution
(FDConv), a novel approach that mitigates these limitations by learning a fixed
parameter budget in the Fourier domain. FDConv divides this budget into
frequency-based groups with disjoint Fourier indices, enabling the construction
of frequency-diverse weights without increasing the parameter cost. To further
enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency
Band Modulation (FBM). KSM dynamically adjusts the frequency response of each
filter at the spatial level, while FBM decomposes weights into distinct
frequency bands in the frequency domain and modulates them dynamically based on
local content. Extensive experiments on object detection, segmentation, and
classification validate the effectiveness of FDConv. We demonstrate that when
applied to ResNet-50, FDConv achieves superior performance with a modest
increase of +3.6M parameters, outperforming previous methods that require
substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M).
Moreover, FDConv seamlessly integrates into a variety of architectures,
including ConvNeXt, Swin-Transformer, offering a flexible and efficient
solution for modern vision tasks. The code is made publicly available at
https://github.com/Linwei-Chen/FDConv.Summary
AI-Generated Summary