FMViT: Ein Vision Transformer mit Mehrfrequenz-Mischung
FMViT: A multiple-frequency mixing Vision Transformer
November 9, 2023
Autoren: Wei Tan, Yifeng Geng, Xuansong Xie
cs.AI
Zusammenfassung
Das Transformer-Modell hat in letzter Zeit breite Akzeptanz in Aufgaben der Computer Vision gefunden. Aufgrund der quadratischen Zeit- und Speicherkomplexität der Selbstaufmerksamkeit, die proportional zur Anzahl der Eingabe-Tokens ist, stoßen die meisten bestehenden Vision Transformers (ViTs) jedoch auf Herausforderungen, um in praktischen industriellen Einsatzszenarien wie TensorRT und CoreML effiziente Leistung zu erzielen, wo traditionelle CNNs hervorstechen. Obwohl es in jüngster Zeit einige Versuche gab, CNN-Transformer-Hybridarchitekturen zu entwerfen, um dieses Problem zu lösen, hat deren Gesamtleistung die Erwartungen nicht erfüllt. Um diese Herausforderungen zu bewältigen, schlagen wir eine effiziente Hybrid-ViT-Architektur namens FMViT vor. Dieser Ansatz verbessert die Ausdruckskraft des Modells, indem er Hochfrequenz- und Niederfrequenzmerkmale mit unterschiedlichen Frequenzen kombiniert, wodurch es sowohl lokale als auch globale Informationen effektiv erfassen kann. Zusätzlich führen wir bereitstellungsfreundliche Mechanismen wie Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) und Convolutional Fusion Block (CFB) ein, um die Leistung des Modells weiter zu verbessern und den Rechenaufwand zu reduzieren. Unsere Experimente zeigen, dass FMViT bestehende CNNs, ViTs und CNN-Transformer-Hybridarchitekturen in Bezug auf das Latenz/Genauigkeits-Verhältnis für verschiedene Vision-Aufgaben übertrifft. Auf der TensorRT-Plattform übertrifft FMViT Resnet101 um 2,5 % (83,3 % vs. 80,8 %) in der Top-1-Genauigkeit auf dem ImageNet-Datensatz, während eine ähnliche Inferenzlatenz beibehalten wird. Darüber hinaus erreicht FMViT eine vergleichbare Leistung wie EfficientNet-B5, jedoch mit einer 43 %igen Verbesserung der Inferenzgeschwindigkeit. Auf CoreML übertrifft FMViT MobileOne um 2,6 % in der Top-1-Genauigkeit auf dem ImageNet-Datensatz, mit einer Inferenzlatenz, die mit MobileOne vergleichbar ist (78,5 % vs. 75,9 %). Unser Code ist unter https://github.com/tany0699/FMViT verfügbar.
English
The transformer model has gained widespread adoption in computer vision tasks
in recent times. However, due to the quadratic time and memory complexity of
self-attention, which is proportional to the number of input tokens, most
existing Vision Transformers (ViTs) encounter challenges in achieving efficient
performance in practical industrial deployment scenarios, such as TensorRT and
CoreML, where traditional CNNs excel. Although some recent attempts have been
made to design CNN-Transformer hybrid architectures to tackle this problem,
their overall performance has not met expectations. To tackle these challenges,
we propose an efficient hybrid ViT architecture named FMViT. This approach
enhances the model's expressive power by blending high-frequency features and
low-frequency features with varying frequencies, enabling it to capture both
local and global information effectively. Additionally, we introduce
deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization
(gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional
Fusion Block (CFB) to further improve the model's performance and reduce
computational overhead. Our experiments demonstrate that FMViT surpasses
existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of
latency/accuracy trade-offs for various vision tasks. On the TensorRT platform,
FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the
ImageNet dataset while maintaining similar inference latency. Moreover, FMViT
achieves comparable performance with EfficientNet-B5, but with a 43%
improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6%
in top-1 accuracy on the ImageNet dataset, with inference latency comparable to
MobileOne (78.5% vs. 75.9%). Our code can be found at
https://github.com/tany0699/FMViT.