FMViT: Un Transformer de Visión con mezcla de múltiples frecuencias
FMViT: A multiple-frequency mixing Vision Transformer
November 9, 2023
Autores: Wei Tan, Yifeng Geng, Xuansong Xie
cs.AI
Resumen
El modelo Transformer ha ganado una amplia adopción en tareas de visión por computadora en los últimos tiempos. Sin embargo, debido a la complejidad cuadrática en tiempo y memoria de la autoatención, que es proporcional al número de tokens de entrada, la mayoría de los Vision Transformers (ViTs) existentes enfrentan desafíos para lograr un rendimiento eficiente en escenarios de implementación industrial práctica, como TensorRT y CoreML, donde las CNN tradicionales sobresalen. Aunque se han realizado algunos intentos recientes para diseñar arquitecturas híbridas CNN-Transformer para abordar este problema, su rendimiento general no ha cumplido con las expectativas. Para abordar estos desafíos, proponemos una arquitectura híbrida eficiente de ViT llamada FMViT. Este enfoque mejora el poder expresivo del modelo al combinar características de alta frecuencia y baja frecuencia con diferentes frecuencias, permitiéndole capturar tanto información local como global de manera efectiva. Además, introducimos mecanismos amigables para la implementación, como la Reparametrización Multigrupo Convolucional (gMLP), la Autoatención Multi-cabeza Ligera (RLMHSA) y el Bloque de Fusión Convolucional (CFB), para mejorar aún más el rendimiento del modelo y reducir la sobrecarga computacional. Nuestros experimentos demuestran que FMViT supera a las CNN, ViTs y arquitecturas híbridas CNN-Transformer existentes en términos de equilibrio entre latencia/precisión para diversas tareas de visión. En la plataforma TensorRT, FMViT supera a Resnet101 en un 2.5% (83.3% vs. 80.8%) en precisión top-1 en el conjunto de datos ImageNet, manteniendo una latencia de inferencia similar. Además, FMViT logra un rendimiento comparable con EfficientNet-B5, pero con una mejora del 43% en la velocidad de inferencia. En CoreML, FMViT supera a MobileOne en un 2.6% en precisión top-1 en el conjunto de datos ImageNet, con una latencia de inferencia comparable a MobileOne (78.5% vs. 75.9%). Nuestro código se puede encontrar en https://github.com/tany0699/FMViT.
English
The transformer model has gained widespread adoption in computer vision tasks
in recent times. However, due to the quadratic time and memory complexity of
self-attention, which is proportional to the number of input tokens, most
existing Vision Transformers (ViTs) encounter challenges in achieving efficient
performance in practical industrial deployment scenarios, such as TensorRT and
CoreML, where traditional CNNs excel. Although some recent attempts have been
made to design CNN-Transformer hybrid architectures to tackle this problem,
their overall performance has not met expectations. To tackle these challenges,
we propose an efficient hybrid ViT architecture named FMViT. This approach
enhances the model's expressive power by blending high-frequency features and
low-frequency features with varying frequencies, enabling it to capture both
local and global information effectively. Additionally, we introduce
deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization
(gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional
Fusion Block (CFB) to further improve the model's performance and reduce
computational overhead. Our experiments demonstrate that FMViT surpasses
existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of
latency/accuracy trade-offs for various vision tasks. On the TensorRT platform,
FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the
ImageNet dataset while maintaining similar inference latency. Moreover, FMViT
achieves comparable performance with EfficientNet-B5, but with a 43%
improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6%
in top-1 accuracy on the ImageNet dataset, with inference latency comparable to
MobileOne (78.5% vs. 75.9%). Our code can be found at
https://github.com/tany0699/FMViT.