Adaptieve Frequentiefilters als Efficiënte Globale Token Mixers
Adaptive Frequency Filters As Efficient Global Token Mixers
July 26, 2023
Auteurs: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo
cs.AI
Samenvatting
Recente vision transformers, CNNs met grote kernels en MLPs hebben opmerkelijke successen behaald in een breed scala aan visuele taken dankzij hun effectieve informatie-integratie op globaal niveau. Hun efficiënte implementatie, met name op mobiele apparaten, blijft echter aanzienlijke uitdagingen ondervinden vanwege de hoge rekenkosten van self-attention-mechanismen, grote kernels of volledig verbonden lagen. In dit werk passen we het conventionele convolutietheorema toe op deep learning om dit aan te pakken en laten we zien dat adaptieve frequentiefilters kunnen dienen als efficiënte globale tokenmixers. Met dit inzicht stellen we de Adaptive Frequency Filtering (AFF) tokenmixer voor. Deze neurale operator transformeert een latente representatie naar het frequentiedomein via een Fourier-transformatie en voert semantisch adaptieve frequentiefiltering uit via een elementgewijze vermenigvuldiging, wat wiskundig gelijk is aan een tokenmixing-operatie in de oorspronkelijke latente ruimte met een dynamische convolutiekernel zo groot als de ruimtelijke resolutie van deze latente representatie. We gebruiken AFF-tokenmixers als primaire neurale operators om een lichtgewicht neuraal netwerk te bouwen, genaamd AFFNet. Uitgebreide experimenten tonen de effectiviteit aan van onze voorgestelde AFF-tokenmixer en laten zien dat AFFNet superieure afwegingen tussen nauwkeurigheid en efficiëntie bereikt in vergelijking met andere lichtgewicht netwerkontwerpen voor een breed scala aan visuele taken, waaronder visuele herkenning en dense prediction-taken.
English
Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.