Modulación Consciente de la Escala Encuentra al Transformer
Scale-Aware Modulation Meet Transformer
July 17, 2023
Autores: Weifeng Lin, Ziheng Wu, Jiayu Chen, Jun Huang, Lianwen Jin
cs.AI
Resumen
Este artículo presenta un nuevo Transformer de visión, el Scale-Aware Modulation Transformer (SMT), que puede manejar diversas tareas posteriores de manera eficiente al combinar la red convolucional y el Transformer de visión. La propuesta de Modulación Consciente de la Escala (SAM, por sus siglas en inglés) en el SMT incluye dos diseños novedosos principales. En primer lugar, introducimos el módulo de Convolución Mixta de Múltiples Cabezas (MHMC), que puede capturar características a múltiples escalas y expandir el campo receptivo. En segundo lugar, proponemos el módulo de Agregación Consciente de la Escala (SAA), que es ligero pero efectivo, permitiendo la fusión de información entre diferentes cabezas. Al aprovechar estos dos módulos, la modulación convolucional se ve aún más potenciada. Además, en contraste con trabajos previos que utilizaron modulaciones en todas las etapas para construir una red sin atención, proponemos una Red Híbrida Evolutiva (EHN), que puede simular eficazmente la transición desde la captura de dependencias locales hacia globales a medida que la red se profundiza, lo que resulta en un rendimiento superior. Experimentos exhaustivos demuestran que el SMT supera significativamente a los modelos más avanzados existentes en una amplia gama de tareas visuales. Específicamente, el SMT con 11.5M / 2.4GFLOPs y 32M / 7.7GFLOPs puede alcanzar un 82.2% y 84.3% de precisión top-1 en ImageNet-1K, respectivamente. Después de ser preentrenado en ImageNet-22K con resolución 224^2, logra un 87.1% y 88.1% de precisión top-1 cuando se ajusta con resoluciones de 224^2 y 384^2, respectivamente. Para la detección de objetos con Mask R-CNN, la base del SMT entrenada con programaciones de 1x y 3x supera a su contraparte Swin Transformer en 4.2 y 1.3 mAP en COCO, respectivamente. Para la segmentación semántica con UPerNet, la prueba de la base del SMT a escala única y múltiple supera a Swin en 2.0 y 1.1 mIoU, respectivamente, en ADE20K.
English
This paper presents a new vision Transformer, Scale-Aware Modulation
Transformer (SMT), that can handle various downstream tasks efficiently by
combining the convolutional network and vision Transformer. The proposed
Scale-Aware Modulation (SAM) in the SMT includes two primary novel designs.
Firstly, we introduce the Multi-Head Mixed Convolution (MHMC) module, which can
capture multi-scale features and expand the receptive field. Secondly, we
propose the Scale-Aware Aggregation (SAA) module, which is lightweight but
effective, enabling information fusion across different heads. By leveraging
these two modules, convolutional modulation is further enhanced. Furthermore,
in contrast to prior works that utilized modulations throughout all stages to
build an attention-free network, we propose an Evolutionary Hybrid Network
(EHN), which can effectively simulate the shift from capturing local to global
dependencies as the network becomes deeper, resulting in superior performance.
Extensive experiments demonstrate that SMT significantly outperforms existing
state-of-the-art models across a wide range of visual tasks. Specifically, SMT
with 11.5M / 2.4GFLOPs and 32M / 7.7GFLOPs can achieve 82.2% and 84.3% top-1
accuracy on ImageNet-1K, respectively. After pretrained on ImageNet-22K in
224^2 resolution, it attains 87.1% and 88.1% top-1 accuracy when finetuned with
resolution 224^2 and 384^2, respectively. For object detection with Mask R-CNN,
the SMT base trained with 1x and 3x schedule outperforms the Swin Transformer
counterpart by 4.2 and 1.3 mAP on COCO, respectively. For semantic segmentation
with UPerNet, the SMT base test at single- and multi-scale surpasses Swin by
2.0 and 1.1 mIoU respectively on the ADE20K.