Filtres à Fréquence Adaptative comme Mélangeurs Globaux Efficaces de Tokens
Adaptive Frequency Filters As Efficient Global Token Mixers
July 26, 2023
Auteurs: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo
cs.AI
Résumé
Les récents transformeurs visuels, CNN à grands noyaux et MLP ont obtenu des succès remarquables dans un large éventail de tâches visuelles grâce à leur fusion efficace d'informations à l'échelle globale. Cependant, leur déploiement efficace, en particulier sur les appareils mobiles, reste confronté à des défis notables en raison des coûts de calcul élevés des mécanismes d'auto-attention, des grands noyaux ou des couches entièrement connectées. Dans ce travail, nous appliquons le théorème de convolution conventionnel à l'apprentissage profond pour résoudre ce problème et révélons que les filtres de fréquence adaptatifs peuvent servir de mélangeurs globaux de tokens efficaces. Avec cette intuition, nous proposons le mélangeur de tokens par filtrage de fréquence adaptatif (AFF). Cet opérateur neuronal transfère une représentation latente dans le domaine fréquentiel via une transformée de Fourier et effectue un filtrage de fréquence sémantique-adaptatif via une multiplication élément par élément, ce qui équivaut mathématiquement à une opération de mélange de tokens dans l'espace latent original avec un noyau de convolution dynamique aussi grand que la résolution spatiale de cette représentation latente. Nous utilisons les mélangeurs de tokens AFF comme opérateurs neuronaux principaux pour construire un réseau neuronal léger, baptisé AFFNet. Des expériences approfondies démontrent l'efficacité de notre mélangeur de tokens AFF proposé et montrent qu'AFFNet atteint un équilibre supérieur entre précision et efficacité par rapport à d'autres conceptions de réseaux légers sur un large éventail de tâches visuelles, y compris les tâches de reconnaissance visuelle et de prédiction dense.
English
Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.