ChatPaper.aiChatPaper

Frequentie Dynamische Convolutie voor Dichte Beeldvoorspelling

Frequency Dynamic Convolution for Dense Image Prediction

March 24, 2025
Auteurs: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
cs.AI

Samenvatting

Hoewel Dynamische Convolutie (DY-Conv) veelbelovende prestaties heeft getoond door adaptieve gewichtsselectie mogelijk te maken via meerdere parallelle gewichten gecombineerd met een aandachtmechanisme, vertoont de frequentierespons van deze gewichten vaak een hoge gelijkenis, wat resulteert in hoge parameterkosten maar beperkte aanpasbaarheid. In dit werk introduceren we Frequentie Dynamische Convolutie (FDConv), een nieuwe aanpak die deze beperkingen vermindert door een vast parameterbudget te leren in het Fourier-domein. FDConv verdeelt dit budget in frequentiegebaseerde groepen met disjuncte Fourier-indices, waardoor de constructie van frequentie-diverse gewichten mogelijk wordt zonder de parameterkosten te verhogen. Om de aanpasbaarheid verder te verbeteren, stellen we Kernel Spatial Modulation (KSM) en Frequency Band Modulation (FBM) voor. KSM past de frequentierespons van elk filter dynamisch aan op het ruimtelijke niveau, terwijl FBM gewichten ontbindt in verschillende frequentiebanden in het frequentiedomein en deze dynamisch moduleert op basis van lokale inhoud. Uitgebreide experimenten op objectdetectie, segmentatie en classificatie valideren de effectiviteit van FDConv. We tonen aan dat FDConv, wanneer toegepast op ResNet-50, superieure prestaties bereikt met een bescheiden toename van +3,6M parameters, en daarmee eerdere methoden overtreft die aanzienlijke verhogingen in parameterbudgetten vereisen (bijv. CondConv +90M, KW +76,5M). Bovendien integreert FDConv naadloos in een verscheidenheid aan architecturen, waaronder ConvNeXt en Swin-Transformer, en biedt zo een flexibele en efficiënte oplossing voor moderne visietaken. De code is publiekelijk beschikbaar op https://github.com/Linwei-Chen/FDConv.
English
While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

Summary

AI-Generated Summary

PDF22March 26, 2025