Convolución Dinámica de Frecuencias para Predicción Densa de Imágenes
Frequency Dynamic Convolution for Dense Image Prediction
March 24, 2025
Autores: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
cs.AI
Resumen
Si bien la Convolución Dinámica (DY-Conv) ha mostrado un rendimiento prometedor al permitir la selección adaptativa de pesos mediante múltiples pesos paralelos combinados con un mecanismo de atención, la respuesta en frecuencia de estos pesos tiende a exhibir una alta similitud, lo que resulta en altos costos de parámetros pero una adaptabilidad limitada. En este trabajo, presentamos la Convolución Dinámica en Frecuencia (FDConv), un enfoque novedoso que mitiga estas limitaciones al aprender un presupuesto fijo de parámetros en el dominio de Fourier. FDConv divide este presupuesto en grupos basados en frecuencia con índices de Fourier disjuntos, permitiendo la construcción de pesos diversos en frecuencia sin aumentar el costo de parámetros. Para mejorar aún más la adaptabilidad, proponemos la Modulación Espacial del Kernel (KSM) y la Modulación de Banda de Frecuencia (FBM). KSM ajusta dinámicamente la respuesta en frecuencia de cada filtro a nivel espacial, mientras que FBM descompone los pesos en bandas de frecuencia distintas en el dominio de frecuencia y las modula dinámicamente según el contenido local. Experimentos exhaustivos en detección de objetos, segmentación y clasificación validan la efectividad de FDConv. Demostramos que, cuando se aplica a ResNet-50, FDConv logra un rendimiento superior con un modesto aumento de +3.6M parámetros, superando métodos anteriores que requieren aumentos sustanciales en los presupuestos de parámetros (por ejemplo, CondConv +90M, KW +76.5M). Además, FDConv se integra sin problemas en una variedad de arquitecturas, incluyendo ConvNeXt y Swin-Transformer, ofreciendo una solución flexible y eficiente para tareas de visión modernas. El código está disponible públicamente en https://github.com/Linwei-Chen/FDConv.
English
While Dynamic Convolution (DY-Conv) has shown promising performance by
enabling adaptive weight selection through multiple parallel weights combined
with an attention mechanism, the frequency response of these weights tends to
exhibit high similarity, resulting in high parameter costs but limited
adaptability. In this work, we introduce Frequency Dynamic Convolution
(FDConv), a novel approach that mitigates these limitations by learning a fixed
parameter budget in the Fourier domain. FDConv divides this budget into
frequency-based groups with disjoint Fourier indices, enabling the construction
of frequency-diverse weights without increasing the parameter cost. To further
enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency
Band Modulation (FBM). KSM dynamically adjusts the frequency response of each
filter at the spatial level, while FBM decomposes weights into distinct
frequency bands in the frequency domain and modulates them dynamically based on
local content. Extensive experiments on object detection, segmentation, and
classification validate the effectiveness of FDConv. We demonstrate that when
applied to ResNet-50, FDConv achieves superior performance with a modest
increase of +3.6M parameters, outperforming previous methods that require
substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M).
Moreover, FDConv seamlessly integrates into a variety of architectures,
including ConvNeXt, Swin-Transformer, offering a flexible and efficient
solution for modern vision tasks. The code is made publicly available at
https://github.com/Linwei-Chen/FDConv.Summary
AI-Generated Summary