ChatPaper.aiChatPaper

EfficientViT: Эффективный по памяти Vision Transformer с каскадным групповым вниманием

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

May 11, 2023
Авторы: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan
cs.AI

Аннотация

Трансформеры для обработки изображений демонстрируют выдающиеся результаты благодаря своим высоким модельным возможностям. Однако их впечатляющая производительность сопровождается значительными вычислительными затратами, что делает их непригодными для приложений реального времени. В данной статье мы предлагаем семейство высокоскоростных трансформеров для обработки изображений под названием EfficientViT. Мы обнаружили, что скорость существующих моделей трансформеров часто ограничивается операциями с неэффективным использованием памяти, особенно переформатированием тензоров и поэлементными функциями в MHSA (Multi-Head Self-Attention). Поэтому мы разработали новый строительный блок с сэндвич-структурой, где используется единственная операция MHSA, ограниченная по памяти, между эффективными слоями FFN (Feed-Forward Network), что повышает эффективность использования памяти и улучшает взаимодействие между каналами. Кроме того, мы выяснили, что карты внимания имеют высокую степень сходства между головками, что приводит к вычислительной избыточности. Для решения этой проблемы мы представляем каскадный модуль группового внимания, который подает на головки внимания различные части полного признакового пространства, что не только снижает вычислительные затраты, но и повышает разнообразие внимания. Комплексные эксперименты показывают, что EfficientViT превосходит существующие эффективные модели, достигая оптимального баланса между скоростью и точностью. Например, наша модель EfficientViT-M5 превосходит MobileNetV3-Large на 1,9% по точности, при этом обеспечивая на 40,4% и 45,2% более высокую пропускную способность на GPU Nvidia V100 и CPU Intel Xeon соответственно. По сравнению с недавней эффективной моделью MobileViT-XXS, EfficientViT-M2 демонстрирует на 1,8% более высокую точность, работая в 5,8/3,7 раза быстрее на GPU/CPU и в 7,4 раза быстрее при конвертации в формат ONNX. Код и модели доступны по адресу https://github.com/microsoft/Cream/tree/main/EfficientViT.
English
Vision transformers have shown great success due to their high model capabilities. However, their remarkable performance is accompanied by heavy computation costs, which makes them unsuitable for real-time applications. In this paper, we propose a family of high-speed vision transformers named EfficientViT. We find that the speed of existing transformer models is commonly bounded by memory inefficient operations, especially the tensor reshaping and element-wise functions in MHSA. Therefore, we design a new building block with a sandwich layout, i.e., using a single memory-bound MHSA between efficient FFN layers, which improves memory efficiency while enhancing channel communication. Moreover, we discover that the attention maps share high similarities across heads, leading to computational redundancy. To address this, we present a cascaded group attention module feeding attention heads with different splits of the full feature, which not only saves computation cost but also improves attention diversity. Comprehensive experiments demonstrate EfficientViT outperforms existing efficient models, striking a good trade-off between speed and accuracy. For instance, our EfficientViT-M5 surpasses MobileNetV3-Large by 1.9% in accuracy, while getting 40.4% and 45.2% higher throughput on Nvidia V100 GPU and Intel Xeon CPU, respectively. Compared to the recent efficient model MobileViT-XXS, EfficientViT-M2 achieves 1.8% superior accuracy, while running 5.8x/3.7x faster on the GPU/CPU, and 7.4x faster when converted to ONNX format. Code and models are available at https://github.com/microsoft/Cream/tree/main/EfficientViT.
PDF31December 15, 2024