ChatPaper.aiChatPaper

EfficientViT: Speichereffizienter Vision-Transformer mit kaskadierter Gruppen-Attention

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

May 11, 2023
Autoren: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan
cs.AI

Zusammenfassung

Vision Transformer haben aufgrund ihrer hohen Modellfähigkeiten großen Erfolg gezeigt. Allerdings ist ihre bemerkenswerte Leistung mit hohen Rechenkosten verbunden, was sie für Echtzeitanwendungen ungeeignet macht. In diesem Artikel stellen wir eine Familie von hochleistungsfähigen Vision Transformern namens EfficientViT vor. Wir stellen fest, dass die Geschwindigkeit bestehender Transformer-Modelle häufig durch speicherineffiziente Operationen begrenzt wird, insbesondere durch das Tensor-Reshaping und elementweise Funktionen im MHSA. Daher entwerfen wir einen neuen Baustein mit einem Sandwich-Layout, d.h. die Verwendung eines einzigen speichergebundenen MHSA zwischen effizienten FFN-Schichten, was die Speichereffizienz verbessert und gleichzeitig die Kanal-Kommunikation fördert. Darüber hinaus stellen wir fest, dass die Aufmerksamkeitskarten über die Köpfe hinweg eine hohe Ähnlichkeit aufweisen, was zu Rechenredundanz führt. Um dies zu beheben, präsentieren wir ein kaskadiertes Gruppenaufmerksamkeitsmodul, das die Aufmerksamkeitsköpfe mit verschiedenen Teilen des vollständigen Features versorgt, was nicht nur Rechenkosten spart, sondern auch die Vielfalt der Aufmerksamkeit verbessert. Umfassende Experimente zeigen, dass EfficientViT bestehende effiziente Modelle übertrifft und eine gute Balance zwischen Geschwindigkeit und Genauigkeit erreicht. Beispielsweise übertrifft unser EfficientViT-M5 MobileNetV3-Large um 1,9 % in der Genauigkeit, während es einen 40,4 % bzw. 45,2 % höheren Durchsatz auf der Nvidia V100 GPU und dem Intel Xeon CPU erzielt. Im Vergleich zum kürzlich vorgestellten effizienten Modell MobileViT-XXS erreicht EfficientViT-M2 eine um 1,8 % höhere Genauigkeit, während es 5,8x/3,7x schneller auf der GPU/CPU läuft und 7,4x schneller ist, wenn es in das ONNX-Format konvertiert wird. Code und Modelle sind verfügbar unter https://github.com/microsoft/Cream/tree/main/EfficientViT.
English
Vision transformers have shown great success due to their high model capabilities. However, their remarkable performance is accompanied by heavy computation costs, which makes them unsuitable for real-time applications. In this paper, we propose a family of high-speed vision transformers named EfficientViT. We find that the speed of existing transformer models is commonly bounded by memory inefficient operations, especially the tensor reshaping and element-wise functions in MHSA. Therefore, we design a new building block with a sandwich layout, i.e., using a single memory-bound MHSA between efficient FFN layers, which improves memory efficiency while enhancing channel communication. Moreover, we discover that the attention maps share high similarities across heads, leading to computational redundancy. To address this, we present a cascaded group attention module feeding attention heads with different splits of the full feature, which not only saves computation cost but also improves attention diversity. Comprehensive experiments demonstrate EfficientViT outperforms existing efficient models, striking a good trade-off between speed and accuracy. For instance, our EfficientViT-M5 surpasses MobileNetV3-Large by 1.9% in accuracy, while getting 40.4% and 45.2% higher throughput on Nvidia V100 GPU and Intel Xeon CPU, respectively. Compared to the recent efficient model MobileViT-XXS, EfficientViT-M2 achieves 1.8% superior accuracy, while running 5.8x/3.7x faster on the GPU/CPU, and 7.4x faster when converted to ONNX format. Code and models are available at https://github.com/microsoft/Cream/tree/main/EfficientViT.
PDF31December 15, 2024