Convolución Dinámica de Frecuencias para Predicción Densa de Imágenes

Resumen

Si bien la Convolución Dinámica (DY-Conv) ha mostrado un rendimiento prometedor al permitir la selección adaptativa de pesos mediante múltiples pesos paralelos combinados con un mecanismo de atención, la respuesta en frecuencia de estos pesos tiende a exhibir una alta similitud, lo que resulta en altos costos de parámetros pero una adaptabilidad limitada. En este trabajo, presentamos la Convolución Dinámica en Frecuencia (FDConv), un enfoque novedoso que mitiga estas limitaciones al aprender un presupuesto fijo de parámetros en el dominio de Fourier. FDConv divide este presupuesto en grupos basados en frecuencia con índices de Fourier disjuntos, permitiendo la construcción de pesos diversos en frecuencia sin aumentar el costo de parámetros. Para mejorar aún más la adaptabilidad, proponemos la Modulación Espacial del Kernel (KSM) y la Modulación de Banda de Frecuencia (FBM). KSM ajusta dinámicamente la respuesta en frecuencia de cada filtro a nivel espacial, mientras que FBM descompone los pesos en bandas de frecuencia distintas en el dominio de frecuencia y las modula dinámicamente según el contenido local. Experimentos exhaustivos en detección de objetos, segmentación y clasificación validan la efectividad de FDConv. Demostramos que, cuando se aplica a ResNet-50, FDConv logra un rendimiento superior con un modesto aumento de +3.6M parámetros, superando métodos anteriores que requieren aumentos sustanciales en los presupuestos de parámetros (por ejemplo, CondConv +90M, KW +76.5M). Además, FDConv se integra sin problemas en una variedad de arquitecturas, incluyendo ConvNeXt y Swin-Transformer, ofreciendo una solución flexible y eficiente para tareas de visión modernas. El código está disponible públicamente en https://github.com/Linwei-Chen/FDConv.

English

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

Convolución Dinámica de Frecuencias para Predicción Densa de Imágenes

Frequency Dynamic Convolution for Dense Image Prediction

Resumen

Support