Convolução Dinâmica de Frequência para Predição Densa de Imagens
Frequency Dynamic Convolution for Dense Image Prediction
March 24, 2025
Autores: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
cs.AI
Resumo
Embora a Convolução Dinâmica (DY-Conv) tenha demonstrado desempenho promissor ao permitir a seleção adaptativa de pesos por meio de múltiplos pesos paralelos combinados com um mecanismo de atenção, a resposta em frequência desses pesos tende a exibir alta similaridade, resultando em custos elevados de parâmetros, mas com adaptabilidade limitada. Neste trabalho, introduzimos a Convolução Dinâmica em Frequência (FDConv), uma abordagem inovadora que mitiga essas limitações ao aprender um orçamento fixo de parâmetros no domínio de Fourier. A FDConv divide esse orçamento em grupos baseados em frequência com índices de Fourier disjuntos, permitindo a construção de pesos diversos em frequência sem aumentar o custo de parâmetros. Para aprimorar ainda mais a adaptabilidade, propomos a Modulação Espacial do Kernel (KSM) e a Modulação de Banda de Frequência (FBM). A KSM ajusta dinamicamente a resposta em frequência de cada filtro no nível espacial, enquanto a FBM decompõe os pesos em bandas de frequência distintas no domínio da frequência e as modula dinamicamente com base no conteúdo local. Experimentos extensivos em detecção de objetos, segmentação e classificação validam a eficácia da FDConv. Demonstramos que, quando aplicada ao ResNet-50, a FDConv alcança desempenho superior com um aumento modesto de +3,6M parâmetros, superando métodos anteriores que exigem aumentos substanciais no orçamento de parâmetros (por exemplo, CondConv +90M, KW +76,5M). Além disso, a FDConv integra-se perfeitamente a uma variedade de arquiteturas, incluindo ConvNeXt e Swin-Transformer, oferecendo uma solução flexível e eficiente para tarefas modernas de visão. O código está disponível publicamente em https://github.com/Linwei-Chen/FDConv.
English
While Dynamic Convolution (DY-Conv) has shown promising performance by
enabling adaptive weight selection through multiple parallel weights combined
with an attention mechanism, the frequency response of these weights tends to
exhibit high similarity, resulting in high parameter costs but limited
adaptability. In this work, we introduce Frequency Dynamic Convolution
(FDConv), a novel approach that mitigates these limitations by learning a fixed
parameter budget in the Fourier domain. FDConv divides this budget into
frequency-based groups with disjoint Fourier indices, enabling the construction
of frequency-diverse weights without increasing the parameter cost. To further
enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency
Band Modulation (FBM). KSM dynamically adjusts the frequency response of each
filter at the spatial level, while FBM decomposes weights into distinct
frequency bands in the frequency domain and modulates them dynamically based on
local content. Extensive experiments on object detection, segmentation, and
classification validate the effectiveness of FDConv. We demonstrate that when
applied to ResNet-50, FDConv achieves superior performance with a modest
increase of +3.6M parameters, outperforming previous methods that require
substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M).
Moreover, FDConv seamlessly integrates into a variety of architectures,
including ConvNeXt, Swin-Transformer, offering a flexible and efficient
solution for modern vision tasks. The code is made publicly available at
https://github.com/Linwei-Chen/FDConv.Summary
AI-Generated Summary