Адаптивные частотные фильтры как эффективные глобальные механизмы смешивания токенов
Adaptive Frequency Filters As Efficient Global Token Mixers
July 26, 2023
Авторы: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo
cs.AI
Аннотация
Недавние трансформаторы для обработки изображений, сверточные нейронные сети с большими ядрами и многослойные перцептроны достигли значительных успехов в широком спектре задач компьютерного зрения благодаря эффективному объединению информации в глобальном масштабе. Однако их эффективное развертывание, особенно на мобильных устройствах, по-прежнему сталкивается с серьезными трудностями из-за высоких вычислительных затрат механизмов самовнимания, больших ядер или полностью связанных слоев. В данной работе мы применяем классическую теорему о свертке к глубокому обучению для решения этой проблемы и показываем, что адаптивные частотные фильтры могут служить эффективными глобальными миксерами токенов. На основе этого инсайта мы предлагаем миксер токенов с адаптивной частотной фильтрацией (AFF). Этот нейронный оператор преобразует скрытое представление в частотную область с помощью преобразования Фурье и выполняет семантически адаптивную частотную фильтрацию через поэлементное умножение, что математически эквивалентно операции смешивания токенов в исходном скрытом пространстве с динамическим ядром свертки, размер которого равен пространственному разрешению этого скрытого представления. Мы используем AFF миксеры токенов в качестве основных нейронных операторов для построения легковесной нейронной сети, названной AFFNet. Многочисленные эксперименты демонстрируют эффективность предложенного нами AFF миксера токенов и показывают, что AFFNet достигает превосходного баланса между точностью и эффективностью по сравнению с другими легковесными сетевыми архитектурами в широком спектре задач компьютерного зрения, включая задачи визуального распознавания и плотного предсказания.
English
Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.