ChatPaper.aiChatPaper

EfficientViT: Transformador de Visión Eficiente en Memoria con Atención en Cascada por Grupos

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

May 11, 2023
Autores: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan
cs.AI

Resumen

Los transformadores de visión han demostrado un gran éxito debido a sus altas capacidades de modelo. Sin embargo, su notable rendimiento viene acompañado de elevados costos computacionales, lo que los hace inadecuados para aplicaciones en tiempo real. En este artículo, proponemos una familia de transformadores de visión de alta velocidad denominada EfficientViT. Descubrimos que la velocidad de los modelos de transformadores existentes está comúnmente limitada por operaciones ineficientes en memoria, especialmente las funciones de remodelación de tensores y las operaciones elemento a elemento en MHSA. Por lo tanto, diseñamos un nuevo bloque de construcción con un diseño en sándwich, es decir, utilizando un único MHSA limitado por memoria entre capas FFN eficientes, lo que mejora la eficiencia de memoria mientras refuerza la comunicación entre canales. Además, descubrimos que los mapas de atención comparten una alta similitud entre cabezas, lo que genera redundancia computacional. Para abordar esto, presentamos un módulo de atención en grupo en cascada que alimenta las cabezas de atención con diferentes divisiones de la característica completa, lo que no solo reduce el costo computacional sino que también mejora la diversidad de la atención. Experimentos exhaustivos demuestran que EfficientViT supera a los modelos eficientes existentes, logrando un buen equilibrio entre velocidad y precisión. Por ejemplo, nuestro EfficientViT-M5 supera a MobileNetV3-Large en un 1.9% en precisión, mientras que obtiene un 40.4% y un 45.2% más de rendimiento en la GPU Nvidia V100 y la CPU Intel Xeon, respectivamente. En comparación con el reciente modelo eficiente MobileViT-XXS, EfficientViT-M2 logra una precisión superior en un 1.8%, mientras que funciona 5.8x/3.7x más rápido en la GPU/CPU, y 7.4x más rápido cuando se convierte al formato ONNX. El código y los modelos están disponibles en https://github.com/microsoft/Cream/tree/main/EfficientViT.
English
Vision transformers have shown great success due to their high model capabilities. However, their remarkable performance is accompanied by heavy computation costs, which makes them unsuitable for real-time applications. In this paper, we propose a family of high-speed vision transformers named EfficientViT. We find that the speed of existing transformer models is commonly bounded by memory inefficient operations, especially the tensor reshaping and element-wise functions in MHSA. Therefore, we design a new building block with a sandwich layout, i.e., using a single memory-bound MHSA between efficient FFN layers, which improves memory efficiency while enhancing channel communication. Moreover, we discover that the attention maps share high similarities across heads, leading to computational redundancy. To address this, we present a cascaded group attention module feeding attention heads with different splits of the full feature, which not only saves computation cost but also improves attention diversity. Comprehensive experiments demonstrate EfficientViT outperforms existing efficient models, striking a good trade-off between speed and accuracy. For instance, our EfficientViT-M5 surpasses MobileNetV3-Large by 1.9% in accuracy, while getting 40.4% and 45.2% higher throughput on Nvidia V100 GPU and Intel Xeon CPU, respectively. Compared to the recent efficient model MobileViT-XXS, EfficientViT-M2 achieves 1.8% superior accuracy, while running 5.8x/3.7x faster on the GPU/CPU, and 7.4x faster when converted to ONNX format. Code and models are available at https://github.com/microsoft/Cream/tree/main/EfficientViT.
PDF31December 15, 2024