Filtros de Frecuencia Adaptativos como Mezcladores Globales Eficientes de Tokens
Adaptive Frequency Filters As Efficient Global Token Mixers
July 26, 2023
Autores: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo
cs.AI
Resumen
Los recientes transformadores de visión, CNN con núcleos grandes y MLP han logrado éxitos notables en una amplia gama de tareas visuales gracias a su efectiva fusión de información en un ámbito global. Sin embargo, su implementación eficiente, especialmente en dispositivos móviles, sigue enfrentando desafíos significativos debido a los elevados costos computacionales de los mecanismos de autoatención, los núcleos grandes o las capas completamente conectadas. En este trabajo, aplicamos el teorema de convolución convencional al aprendizaje profundo para abordar este problema y revelamos que los filtros de frecuencia adaptativos pueden funcionar como mezcladores globales de tokens eficientes. Con esta idea, proponemos el mezclador de tokens de Filtrado de Frecuencia Adaptativa (AFF, por sus siglas en inglés). Este operador neuronal transforma una representación latente al dominio de la frecuencia mediante una transformada de Fourier y realiza un filtrado de frecuencia semántico-adaptativo mediante una multiplicación elemento por elemento, lo que matemáticamente equivale a una operación de mezcla de tokens en el espacio latente original con un núcleo de convolución dinámico tan grande como la resolución espacial de esta representación latente. Utilizamos los mezcladores de tokens AFF como operadores neuronales principales para construir una red neuronal ligera, denominada AFFNet. Experimentos exhaustivos demuestran la efectividad de nuestro mezclador de tokens AFF propuesto y muestran que AFFNet logra un equilibrio superior entre precisión y eficiencia en comparación con otros diseños de redes ligeras en diversas tareas visuales, incluyendo reconocimiento visual y tareas de predicción densa.
English
Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.