Adaptive Frequenzfilter als effiziente globale Token-Mischer
Adaptive Frequency Filters As Efficient Global Token Mixers
July 26, 2023
Autoren: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo
cs.AI
Zusammenfassung
Aktuelle Vision-Transformer, CNNs mit großen Kerneln und MLPs haben bemerkenswerte Erfolge in einer Vielzahl von Vision-Aufgaben erzielt, dank ihrer effektiven Informationsfusion im globalen Bereich. Ihre effiziente Implementierung, insbesondere auf mobilen Geräten, leidet jedoch noch unter erheblichen Herausforderungen aufgrund der hohen Rechenkosten von Self-Attention-Mechanismen, großen Kerneln oder vollständig verbundenen Schichten. In dieser Arbeit wenden wir das klassische Faltungstheorem auf das Deep Learning an, um dieses Problem zu adressieren, und zeigen, dass adaptive Frequenzfilter als effiziente globale Token-Mixer dienen können. Mit dieser Erkenntnis schlagen wir den Adaptive Frequency Filtering (AFF) Token-Mixer vor. Dieser neuronale Operator überführt eine latente Darstellung mittels einer Fourier-Transformation in den Frequenzbereich und führt eine semantisch adaptive Frequenzfilterung durch eine elementweise Multiplikation durch, was mathematisch einer Token-Mixing-Operation im ursprünglichen latenten Raum mit einem dynamischen Faltungskernel entspricht, der so groß ist wie die räumliche Auflösung dieser latenten Darstellung. Wir verwenden AFF Token-Mixer als primäre neuronale Operatoren, um ein leichtgewichtiges neuronales Netzwerk, genannt AFFNet, zu konstruieren. Umfangreiche Experimente demonstrieren die Effektivität unseres vorgeschlagenen AFF Token-Mixers und zeigen, dass AFFNet im Vergleich zu anderen leichtgewichtigen Netzwerkdesigns überlegene Kompromisse zwischen Genauigkeit und Effizienz bei einer Vielzahl von visuellen Aufgaben erreicht, einschließlich visueller Erkennung und dichten Vorhersageaufgaben.
English
Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.