Convolution Dynamique en Fréquence pour la Prédiction d'Images Denses
Frequency Dynamic Convolution for Dense Image Prediction
March 24, 2025
Auteurs: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
cs.AI
Résumé
Bien que la convolution dynamique (DY-Conv) ait démontré des performances prometteuses en permettant une sélection adaptative des poids grâce à plusieurs poids parallèles combinés avec un mécanisme d'attention, la réponse en fréquence de ces poids tend à présenter une forte similarité, entraînant des coûts en paramètres élevés mais une adaptabilité limitée. Dans ce travail, nous introduisons la convolution dynamique en fréquence (FDConv), une approche novatrice qui atténue ces limitations en apprenant un budget fixe de paramètres dans le domaine de Fourier. FDConv divise ce budget en groupes basés sur la fréquence avec des indices de Fourier disjoints, permettant la construction de poids diversifiés en fréquence sans augmenter le coût en paramètres. Pour renforcer davantage l'adaptabilité, nous proposons la modulation spatiale du noyau (KSM) et la modulation de bande de fréquence (FBM). KSM ajuste dynamiquement la réponse en fréquence de chaque filtre au niveau spatial, tandis que FBM décompose les poids en bandes de fréquence distinctes dans le domaine fréquentiel et les module dynamiquement en fonction du contenu local. Des expériences approfondies sur la détection d'objets, la segmentation et la classification valident l'efficacité de FDConv. Nous démontrons que, lorsqu'elle est appliquée à ResNet-50, FDConv atteint des performances supérieures avec une augmentation modeste de +3,6M de paramètres, surpassant les méthodes précédentes qui nécessitent des augmentations substantielles des budgets en paramètres (par exemple, CondConv +90M, KW +76,5M). De plus, FDConv s'intègre de manière transparente dans une variété d'architectures, y compris ConvNeXt et Swin-Transformer, offrant une solution flexible et efficace pour les tâches de vision modernes. Le code est rendu public à l'adresse https://github.com/Linwei-Chen/FDConv.
English
While Dynamic Convolution (DY-Conv) has shown promising performance by
enabling adaptive weight selection through multiple parallel weights combined
with an attention mechanism, the frequency response of these weights tends to
exhibit high similarity, resulting in high parameter costs but limited
adaptability. In this work, we introduce Frequency Dynamic Convolution
(FDConv), a novel approach that mitigates these limitations by learning a fixed
parameter budget in the Fourier domain. FDConv divides this budget into
frequency-based groups with disjoint Fourier indices, enabling the construction
of frequency-diverse weights without increasing the parameter cost. To further
enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency
Band Modulation (FBM). KSM dynamically adjusts the frequency response of each
filter at the spatial level, while FBM decomposes weights into distinct
frequency bands in the frequency domain and modulates them dynamically based on
local content. Extensive experiments on object detection, segmentation, and
classification validate the effectiveness of FDConv. We demonstrate that when
applied to ResNet-50, FDConv achieves superior performance with a modest
increase of +3.6M parameters, outperforming previous methods that require
substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M).
Moreover, FDConv seamlessly integrates into a variety of architectures,
including ConvNeXt, Swin-Transformer, offering a flexible and efficient
solution for modern vision tasks. The code is made publicly available at
https://github.com/Linwei-Chen/FDConv.Summary
AI-Generated Summary