Filtri a Frequenza Adattiva come Efficienti Miscelatori Globali di Token
Adaptive Frequency Filters As Efficient Global Token Mixers
July 26, 2023
Autori: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo
cs.AI
Abstract
I recenti vision transformer, CNN con kernel di grandi dimensioni e MLP hanno ottenuto successi notevoli in un'ampia gamma di compiti visivi grazie alla loro efficace fusione di informazioni su scala globale. Tuttavia, il loro dispiegamento efficiente, specialmente su dispositivi mobili, continua a incontrare sfide significative a causa degli elevati costi computazionali dei meccanismi di self-attention, dei kernel di grandi dimensioni o degli strati completamente connessi. In questo lavoro, applichiamo il teorema di convoluzione tradizionale al deep learning per affrontare questo problema e dimostriamo che i filtri di frequenza adattivi possono fungere da efficienti miscelatori di token globali. Con questa intuizione, proponiamo il miscelatore di token Adaptive Frequency Filtering (AFF). Questo operatore neurale trasferisce una rappresentazione latente nel dominio della frequenza tramite una trasformata di Fourier ed esegue un filtraggio di frequenza semantico-adattivo tramite una moltiplicazione elemento per elemento, che matematicamente equivale a un'operazione di miscelazione di token nello spazio latente originale con un kernel di convoluzione dinamico grande quanto la risoluzione spaziale di questa rappresentazione latente. Utilizziamo i miscelatori di token AFF come operatori neurali primari per costruire una rete neurale leggera, denominata AFFNet. Esperimenti estensivi dimostrano l'efficacia del nostro miscelatore di token AFF proposto e mostrano che AFFNet raggiunge un equilibrio superiore tra accuratezza ed efficienza rispetto ad altri progetti di reti leggere in un'ampia gamma di compiti visivi, inclusi il riconoscimento visivo e i compiti di predizione densa.
English
Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.