EfficientViT: Geheugenefficiënte Vision Transformer met Gecascadeerde Groepsattentie

Samenvatting

Vision transformers hebben grote successen geboekt dankzij hun hoge modelcapaciteiten. Hun opmerkelijke prestaties gaan echter gepaard met zware rekenkosten, waardoor ze ongeschikt zijn voor realtime toepassingen. In dit artikel introduceren we een familie van snelle vision transformers genaamd EfficientViT. We constateren dat de snelheid van bestaande transformermodellen vaak wordt beperkt door geheugeninefficiënte operaties, met name het hervormen van tensoren en elementgewijze functies in MHSA. Daarom ontwerpen we een nieuw bouwblok met een sandwichopbouw, waarbij een enkele geheugengebonden MHSA wordt gebruikt tussen efficiënte FFN-lagen, wat de geheugenefficiëntie verbetert en tegelijkertijd de kanaalcommunicatie versterkt. Bovendien ontdekken we dat de aandachtkaarten een hoge gelijkenis vertonen tussen de verschillende koppen, wat leidt tot rekenkundige redundantie. Om dit aan te pakken, presenteren we een gecascadeerde groepsaandachtsmodule die aandachtskoppen voedt met verschillende splitsingen van de volledige feature, wat niet alleen rekenkosten bespaart, maar ook de diversiteit van de aandacht verbetert. Uitgebreide experimenten tonen aan dat EfficientViT bestaande efficiënte modellen overtreft en een goede balans vindt tussen snelheid en nauwkeurigheid. Zo overtreft onze EfficientViT-M5 MobileNetV3-Large met 1,9% in nauwkeurigheid, terwijl het 40,4% en 45,2% hogere doorvoer behaalt op respectievelijk een Nvidia V100 GPU en een Intel Xeon CPU. Vergeleken met het recente efficiënte model MobileViT-XXS, behaalt EfficientViT-M2 1,8% betere nauwkeurigheid, terwijl het 5,8x/3,7x sneller draait op de GPU/CPU, en 7,4x sneller wanneer het wordt geconverteerd naar ONNX-formaat. Code en modellen zijn beschikbaar op https://github.com/microsoft/Cream/tree/main/EfficientViT.

English

Vision transformers have shown great success due to their high model capabilities. However, their remarkable performance is accompanied by heavy computation costs, which makes them unsuitable for real-time applications. In this paper, we propose a family of high-speed vision transformers named EfficientViT. We find that the speed of existing transformer models is commonly bounded by memory inefficient operations, especially the tensor reshaping and element-wise functions in MHSA. Therefore, we design a new building block with a sandwich layout, i.e., using a single memory-bound MHSA between efficient FFN layers, which improves memory efficiency while enhancing channel communication. Moreover, we discover that the attention maps share high similarities across heads, leading to computational redundancy. To address this, we present a cascaded group attention module feeding attention heads with different splits of the full feature, which not only saves computation cost but also improves attention diversity. Comprehensive experiments demonstrate EfficientViT outperforms existing efficient models, striking a good trade-off between speed and accuracy. For instance, our EfficientViT-M5 surpasses MobileNetV3-Large by 1.9% in accuracy, while getting 40.4% and 45.2% higher throughput on Nvidia V100 GPU and Intel Xeon CPU, respectively. Compared to the recent efficient model MobileViT-XXS, EfficientViT-M2 achieves 1.8% superior accuracy, while running 5.8x/3.7x faster on the GPU/CPU, and 7.4x faster when converted to ONNX format. Code and models are available at https://github.com/microsoft/Cream/tree/main/EfficientViT.

EfficientViT: Geheugenefficiënte Vision Transformer met Gecascadeerde Groepsattentie

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

Samenvatting

Support