Convolução Dinâmica de Frequência para Predição Densa de Imagens

Resumo

Embora a Convolução Dinâmica (DY-Conv) tenha demonstrado desempenho promissor ao permitir a seleção adaptativa de pesos por meio de múltiplos pesos paralelos combinados com um mecanismo de atenção, a resposta em frequência desses pesos tende a exibir alta similaridade, resultando em custos elevados de parâmetros, mas com adaptabilidade limitada. Neste trabalho, introduzimos a Convolução Dinâmica em Frequência (FDConv), uma abordagem inovadora que mitiga essas limitações ao aprender um orçamento fixo de parâmetros no domínio de Fourier. A FDConv divide esse orçamento em grupos baseados em frequência com índices de Fourier disjuntos, permitindo a construção de pesos diversos em frequência sem aumentar o custo de parâmetros. Para aprimorar ainda mais a adaptabilidade, propomos a Modulação Espacial do Kernel (KSM) e a Modulação de Banda de Frequência (FBM). A KSM ajusta dinamicamente a resposta em frequência de cada filtro no nível espacial, enquanto a FBM decompõe os pesos em bandas de frequência distintas no domínio da frequência e as modula dinamicamente com base no conteúdo local. Experimentos extensivos em detecção de objetos, segmentação e classificação validam a eficácia da FDConv. Demonstramos que, quando aplicada ao ResNet-50, a FDConv alcança desempenho superior com um aumento modesto de +3,6M parâmetros, superando métodos anteriores que exigem aumentos substanciais no orçamento de parâmetros (por exemplo, CondConv +90M, KW +76,5M). Além disso, a FDConv integra-se perfeitamente a uma variedade de arquiteturas, incluindo ConvNeXt e Swin-Transformer, oferecendo uma solução flexível e eficiente para tarefas modernas de visão. O código está disponível publicamente em https://github.com/Linwei-Chen/FDConv.

English

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

Convolução Dinâmica de Frequência para Predição Densa de Imagens

Frequency Dynamic Convolution for Dense Image Prediction

Resumo

Support