FMViT: Een Vision Transformer met meervoudige frequentiemenging
FMViT: A multiple-frequency mixing Vision Transformer
November 9, 2023
Auteurs: Wei Tan, Yifeng Geng, Xuansong Xie
cs.AI
Samenvatting
Het transformermodel heeft de afgelopen tijd brede acceptatie gevonden in computervisietaken. Echter, vanwege de kwadratische tijd- en geheugencomplexiteit van self-attention, die evenredig is met het aantal invoertokens, ondervinden de meeste bestaande Vision Transformers (ViTs) uitdagingen bij het bereiken van efficiënte prestaties in praktische industriële implementatiescenario's, zoals TensorRT en CoreML, waar traditionele CNN's uitblinken. Hoewel recent enkele pogingen zijn gedaan om hybride CNN-Transformer-architecturen te ontwerpen om dit probleem aan te pakken, heeft hun algehele prestatieniveau niet aan de verwachtingen voldaan. Om deze uitdagingen aan te pakken, stellen wij een efficiënte hybride ViT-architectuur voor, genaamd FMViT. Deze aanpak versterkt het uitdrukkingsvermogen van het model door hoogfrequente en laagfrequente kenmerken met verschillende frequenties te combineren, waardoor het zowel lokale als globale informatie effectief kan vastleggen. Daarnaast introduceren wij implementatievriendelijke mechanismen zoals Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) en Convolutional Fusion Block (CFB) om de prestaties van het model verder te verbeteren en de rekenkosten te verlagen. Onze experimenten tonen aan dat FMViT bestaande CNN's, ViTs en hybride CNN-Transformer-architecturen overtreft wat betreft de afweging tussen latentie en nauwkeurigheid voor diverse visietaken. Op het TensorRT-platform presteert FMViT 2,5% beter dan Resnet101 (83,3% vs. 80,8%) in top-1 nauwkeurigheid op de ImageNet-dataset, terwijl een vergelijkbare inferentielatentie wordt behouden. Bovendien bereikt FMViT vergelijkbare prestaties met EfficientNet-B5, maar met een verbetering van 43% in inferentiesnelheid. Op CoreML presteert FMViT 2,6% beter dan MobileOne in top-1 nauwkeurigheid op de ImageNet-dataset, met een inferentielatentie die vergelijkbaar is met MobileOne (78,5% vs. 75,9%). Onze code is te vinden op https://github.com/tany0699/FMViT.
English
The transformer model has gained widespread adoption in computer vision tasks
in recent times. However, due to the quadratic time and memory complexity of
self-attention, which is proportional to the number of input tokens, most
existing Vision Transformers (ViTs) encounter challenges in achieving efficient
performance in practical industrial deployment scenarios, such as TensorRT and
CoreML, where traditional CNNs excel. Although some recent attempts have been
made to design CNN-Transformer hybrid architectures to tackle this problem,
their overall performance has not met expectations. To tackle these challenges,
we propose an efficient hybrid ViT architecture named FMViT. This approach
enhances the model's expressive power by blending high-frequency features and
low-frequency features with varying frequencies, enabling it to capture both
local and global information effectively. Additionally, we introduce
deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization
(gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional
Fusion Block (CFB) to further improve the model's performance and reduce
computational overhead. Our experiments demonstrate that FMViT surpasses
existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of
latency/accuracy trade-offs for various vision tasks. On the TensorRT platform,
FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the
ImageNet dataset while maintaining similar inference latency. Moreover, FMViT
achieves comparable performance with EfficientNet-B5, but with a 43%
improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6%
in top-1 accuracy on the ImageNet dataset, with inference latency comparable to
MobileOne (78.5% vs. 75.9%). Our code can be found at
https://github.com/tany0699/FMViT.