Convolution Dynamique en Fréquence pour la Prédiction d'Images Denses

papers.abstract

Bien que la convolution dynamique (DY-Conv) ait démontré des performances prometteuses en permettant une sélection adaptative des poids grâce à plusieurs poids parallèles combinés avec un mécanisme d'attention, la réponse en fréquence de ces poids tend à présenter une forte similarité, entraînant des coûts en paramètres élevés mais une adaptabilité limitée. Dans ce travail, nous introduisons la convolution dynamique en fréquence (FDConv), une approche novatrice qui atténue ces limitations en apprenant un budget fixe de paramètres dans le domaine de Fourier. FDConv divise ce budget en groupes basés sur la fréquence avec des indices de Fourier disjoints, permettant la construction de poids diversifiés en fréquence sans augmenter le coût en paramètres. Pour renforcer davantage l'adaptabilité, nous proposons la modulation spatiale du noyau (KSM) et la modulation de bande de fréquence (FBM). KSM ajuste dynamiquement la réponse en fréquence de chaque filtre au niveau spatial, tandis que FBM décompose les poids en bandes de fréquence distinctes dans le domaine fréquentiel et les module dynamiquement en fonction du contenu local. Des expériences approfondies sur la détection d'objets, la segmentation et la classification valident l'efficacité de FDConv. Nous démontrons que, lorsqu'elle est appliquée à ResNet-50, FDConv atteint des performances supérieures avec une augmentation modeste de +3,6M de paramètres, surpassant les méthodes précédentes qui nécessitent des augmentations substantielles des budgets en paramètres (par exemple, CondConv +90M, KW +76,5M). De plus, FDConv s'intègre de manière transparente dans une variété d'architectures, y compris ConvNeXt et Swin-Transformer, offrant une solution flexible et efficace pour les tâches de vision modernes. Le code est rendu public à l'adresse https://github.com/Linwei-Chen/FDConv.

English

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

Convolution Dynamique en Fréquence pour la Prédiction d'Images Denses

Frequency Dynamic Convolution for Dense Image Prediction

papers.abstract

Support