Filtros de Frequência Adaptativa como Misturadores Globais Eficientes de Tokens
Adaptive Frequency Filters As Efficient Global Token Mixers
July 26, 2023
Autores: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo
cs.AI
Resumo
Transformers de visão recentes, CNNs com kernels grandes e MLPs têm alcançado sucessos notáveis em uma ampla gama de tarefas visuais graças à sua eficiente fusão de informações em escopo global. No entanto, sua implantação eficiente, especialmente em dispositivos móveis, ainda enfrenta desafios significativos devido aos altos custos computacionais dos mecanismos de self-attention, kernels grandes ou camadas totalmente conectadas. Neste trabalho, aplicamos o teorema de convolução convencional ao aprendizado profundo para abordar esse problema e revelamos que filtros de frequência adaptativos podem servir como misturadores globais de tokens eficientes. Com essa percepção, propomos o misturador de tokens de Filtragem de Frequência Adaptativa (AFF). Este operador neural transfere uma representação latente para o domínio da frequência por meio de uma transformada de Fourier e realiza a filtragem de frequência semântica-adaptativa por meio de uma multiplicação elemento a elemento, o que matematicamente equivale a uma operação de mistura de tokens no espaço latente original com um kernel de convolução dinâmico tão grande quanto a resolução espacial dessa representação latente. Utilizamos misturadores de tokens AFF como operadores neurais primários para construir uma rede neural leve, denominada AFFNet. Experimentos extensivos demonstram a eficácia do nosso misturador de tokens AFF proposto e mostram que o AFFNet alcança um equilíbrio superior entre precisão e eficiência em comparação com outros designs de redes leves em uma ampla gama de tarefas visuais, incluindo reconhecimento visual e tarefas de predição densa.
English
Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.