FMViT: Um Vision Transformer com mistura de múltiplas frequências
FMViT: A multiple-frequency mixing Vision Transformer
November 9, 2023
Autores: Wei Tan, Yifeng Geng, Xuansong Xie
cs.AI
Resumo
O modelo Transformer tem ganhado ampla adoção em tarefas de visão computacional nos últimos tempos. No entanto, devido à complexidade quadrática de tempo e memória da autoatenção, que é proporcional ao número de tokens de entrada, a maioria dos Vision Transformers (ViTs) existentes enfrenta desafios para alcançar desempenho eficiente em cenários práticos de implantação industrial, como TensorRT e CoreML, onde as CNNs tradicionais se destacam. Embora algumas tentativas recentes tenham sido feitas para projetar arquiteturas híbridas CNN-Transformer para resolver esse problema, seu desempenho geral não atendeu às expectativas. Para enfrentar esses desafios, propomos uma arquitetura híbrida eficiente de ViT chamada FMViT. Essa abordagem aumenta o poder expressivo do modelo ao combinar características de alta frequência e baixa frequência com diferentes frequências, permitindo que ele capture informações locais e globais de forma eficaz. Além disso, introduzimos mecanismos amigáveis à implantação, como Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) e Convolutional Fusion Block (CFB), para melhorar ainda mais o desempenho do modelo e reduzir a sobrecarga computacional. Nossos experimentos demonstram que o FMViT supera as CNNs, ViTs e arquiteturas híbridas CNN-Transformer existentes em termos de compensação entre latência e precisão para várias tarefas de visão. Na plataforma TensorRT, o FMViT supera o Resnet101 em 2,5% (83,3% vs. 80,8%) na precisão top-1 no conjunto de dados ImageNet, mantendo uma latência de inferência semelhante. Além disso, o FMViT alcança desempenho comparável ao EfficientNet-B5, mas com uma melhoria de 43% na velocidade de inferência. No CoreML, o FMViT supera o MobileOne em 2,6% na precisão top-1 no conjunto de dados ImageNet, com latência de inferência comparável ao MobileOne (78,5% vs. 75,9%). Nosso código pode ser encontrado em https://github.com/tany0699/FMViT.
English
The transformer model has gained widespread adoption in computer vision tasks
in recent times. However, due to the quadratic time and memory complexity of
self-attention, which is proportional to the number of input tokens, most
existing Vision Transformers (ViTs) encounter challenges in achieving efficient
performance in practical industrial deployment scenarios, such as TensorRT and
CoreML, where traditional CNNs excel. Although some recent attempts have been
made to design CNN-Transformer hybrid architectures to tackle this problem,
their overall performance has not met expectations. To tackle these challenges,
we propose an efficient hybrid ViT architecture named FMViT. This approach
enhances the model's expressive power by blending high-frequency features and
low-frequency features with varying frequencies, enabling it to capture both
local and global information effectively. Additionally, we introduce
deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization
(gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional
Fusion Block (CFB) to further improve the model's performance and reduce
computational overhead. Our experiments demonstrate that FMViT surpasses
existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of
latency/accuracy trade-offs for various vision tasks. On the TensorRT platform,
FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the
ImageNet dataset while maintaining similar inference latency. Moreover, FMViT
achieves comparable performance with EfficientNet-B5, but with a 43%
improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6%
in top-1 accuracy on the ImageNet dataset, with inference latency comparable to
MobileOne (78.5% vs. 75.9%). Our code can be found at
https://github.com/tany0699/FMViT.