FMViT: Een Vision Transformer met meervoudige frequentiemenging

Samenvatting

Het transformermodel heeft de afgelopen tijd brede acceptatie gevonden in computervisietaken. Echter, vanwege de kwadratische tijd- en geheugencomplexiteit van self-attention, die evenredig is met het aantal invoertokens, ondervinden de meeste bestaande Vision Transformers (ViTs) uitdagingen bij het bereiken van efficiënte prestaties in praktische industriële implementatiescenario's, zoals TensorRT en CoreML, waar traditionele CNN's uitblinken. Hoewel recent enkele pogingen zijn gedaan om hybride CNN-Transformer-architecturen te ontwerpen om dit probleem aan te pakken, heeft hun algehele prestatieniveau niet aan de verwachtingen voldaan. Om deze uitdagingen aan te pakken, stellen wij een efficiënte hybride ViT-architectuur voor, genaamd FMViT. Deze aanpak versterkt het uitdrukkingsvermogen van het model door hoogfrequente en laagfrequente kenmerken met verschillende frequenties te combineren, waardoor het zowel lokale als globale informatie effectief kan vastleggen. Daarnaast introduceren wij implementatievriendelijke mechanismen zoals Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) en Convolutional Fusion Block (CFB) om de prestaties van het model verder te verbeteren en de rekenkosten te verlagen. Onze experimenten tonen aan dat FMViT bestaande CNN's, ViTs en hybride CNN-Transformer-architecturen overtreft wat betreft de afweging tussen latentie en nauwkeurigheid voor diverse visietaken. Op het TensorRT-platform presteert FMViT 2,5% beter dan Resnet101 (83,3% vs. 80,8%) in top-1 nauwkeurigheid op de ImageNet-dataset, terwijl een vergelijkbare inferentielatentie wordt behouden. Bovendien bereikt FMViT vergelijkbare prestaties met EfficientNet-B5, maar met een verbetering van 43% in inferentiesnelheid. Op CoreML presteert FMViT 2,6% beter dan MobileOne in top-1 nauwkeurigheid op de ImageNet-dataset, met een inferentielatentie die vergelijkbaar is met MobileOne (78,5% vs. 75,9%). Onze code is te vinden op https://github.com/tany0699/FMViT.

English

The transformer model has gained widespread adoption in computer vision tasks in recent times. However, due to the quadratic time and memory complexity of self-attention, which is proportional to the number of input tokens, most existing Vision Transformers (ViTs) encounter challenges in achieving efficient performance in practical industrial deployment scenarios, such as TensorRT and CoreML, where traditional CNNs excel. Although some recent attempts have been made to design CNN-Transformer hybrid architectures to tackle this problem, their overall performance has not met expectations. To tackle these challenges, we propose an efficient hybrid ViT architecture named FMViT. This approach enhances the model's expressive power by blending high-frequency features and low-frequency features with varying frequencies, enabling it to capture both local and global information effectively. Additionally, we introduce deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional Fusion Block (CFB) to further improve the model's performance and reduce computational overhead. Our experiments demonstrate that FMViT surpasses existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of latency/accuracy trade-offs for various vision tasks. On the TensorRT platform, FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the ImageNet dataset while maintaining similar inference latency. Moreover, FMViT achieves comparable performance with EfficientNet-B5, but with a 43% improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6% in top-1 accuracy on the ImageNet dataset, with inference latency comparable to MobileOne (78.5% vs. 75.9%). Our code can be found at https://github.com/tany0699/FMViT.

FMViT: Een Vision Transformer met meervoudige frequentiemenging

FMViT: A multiple-frequency mixing Vision Transformer

Samenvatting

Support