適応周波数フィルタを用いた効率的なグローバルトークンミキサー
Adaptive Frequency Filters As Efficient Global Token Mixers
July 26, 2023
著者: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo
cs.AI
要旨
近年のビジョントランスフォーマー、大カーネルCNN、およびMLPは、グローバルスコープでの効果的な情報融合により、幅広い視覚タスクで顕著な成功を収めています。しかし、特にモバイルデバイス上での効率的な展開は、セルフアテンションメカニズム、大カーネル、または全結合層の重い計算コストにより、依然として大きな課題に直面しています。本研究では、この問題に対処するために従来の畳み込み定理を深層学習に適用し、適応型周波数フィルターが効率的なグローバルトークンミキサーとして機能し得ることを明らかにしました。この洞察に基づき、Adaptive Frequency Filtering (AFF) トークンミキサーを提案します。このニューラルオペレーターは、フーリエ変換を介して潜在表現を周波数領域に変換し、要素ごとの乗算を介して意味的に適応した周波数フィルタリングを実行します。これは数学的には、潜在表現の空間解像度と同じ大きさの動的畳み込みカーネルを使用した元の潜在空間でのトークンミキシング操作に相当します。AFFトークンミキサーを主要なニューラルオペレーターとして採用し、AFFNetと呼ばれる軽量ニューラルネットワークを構築しました。広範な実験により、提案したAFFトークンミキサーの有効性が実証され、AFFNetが視覚認識や密な予測タスクを含む幅広い視覚タスクにおいて、他の軽量ネットワーク設計と比較して優れた精度と効率のトレードオフを達成することが示されました。
English
Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.