FMViT: Vision Transformer с множественным смешением частот
FMViT: A multiple-frequency mixing Vision Transformer
November 9, 2023
Авторы: Wei Tan, Yifeng Geng, Xuansong Xie
cs.AI
Аннотация
Модель трансформера получила широкое распространение в задачах компьютерного зрения в последнее время. Однако из-за квадратичной временной и объемной сложности механизма самовнимания, которая пропорциональна количеству входных токенов, большинство существующих Vision Transformers (ViTs) сталкиваются с трудностями в достижении эффективной производительности в практических сценариях промышленного внедрения, таких как TensorRT и CoreML, где традиционные сверточные нейронные сети (CNNs) демонстрируют превосходство. Хотя в последнее время были предприняты попытки разработать гибридные архитектуры CNN-Transformer для решения этой проблемы, их общая производительность не оправдала ожиданий. Для преодоления этих трудностей мы предлагаем эффективную гибридную архитектуру ViT под названием FMViT. Этот подход повышает выразительную способность модели за счет объединения высокочастотных и низкочастотных признаков с различными частотами, что позволяет эффективно захватывать как локальную, так и глобальную информацию. Кроме того, мы вводим механизмы, удобные для развертывания, такие как Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) и Convolutional Fusion Block (CFB), чтобы дополнительно улучшить производительность модели и снизить вычислительные затраты. Наши эксперименты показывают, что FMViT превосходит существующие CNNs, ViTs и гибридные архитектуры CNN-Transformer с точки зрения компромисса между задержкой и точностью для различных задач зрения. На платформе TensorRT FMViT превосходит Resnet101 на 2,5% (83,3% против 80,8%) по точности top-1 на наборе данных ImageNet при сохранении аналогичной задержки вывода. Более того, FMViT демонстрирует сопоставимую производительность с EfficientNet-B5, но с улучшением скорости вывода на 43%. На CoreML FMViT превосходит MobileOne на 2,6% по точности top-1 на наборе данных ImageNet, при этом задержка вывода сравнима с MobileOne (78,5% против 75,9%). Наш код доступен по адресу https://github.com/tany0699/FMViT.
English
The transformer model has gained widespread adoption in computer vision tasks
in recent times. However, due to the quadratic time and memory complexity of
self-attention, which is proportional to the number of input tokens, most
existing Vision Transformers (ViTs) encounter challenges in achieving efficient
performance in practical industrial deployment scenarios, such as TensorRT and
CoreML, where traditional CNNs excel. Although some recent attempts have been
made to design CNN-Transformer hybrid architectures to tackle this problem,
their overall performance has not met expectations. To tackle these challenges,
we propose an efficient hybrid ViT architecture named FMViT. This approach
enhances the model's expressive power by blending high-frequency features and
low-frequency features with varying frequencies, enabling it to capture both
local and global information effectively. Additionally, we introduce
deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization
(gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional
Fusion Block (CFB) to further improve the model's performance and reduce
computational overhead. Our experiments demonstrate that FMViT surpasses
existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of
latency/accuracy trade-offs for various vision tasks. On the TensorRT platform,
FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the
ImageNet dataset while maintaining similar inference latency. Moreover, FMViT
achieves comparable performance with EfficientNet-B5, but with a 43%
improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6%
in top-1 accuracy on the ImageNet dataset, with inference latency comparable to
MobileOne (78.5% vs. 75.9%). Our code can be found at
https://github.com/tany0699/FMViT.