Modulação Consciente de Escala Encontra o Transformer
Scale-Aware Modulation Meet Transformer
July 17, 2023
Autores: Weifeng Lin, Ziheng Wu, Jiayu Chen, Jun Huang, Lianwen Jin
cs.AI
Resumo
Este artigo apresenta um novo Transformer de visão, o Scale-Aware Modulation Transformer (SMT), que pode lidar com diversas tarefas subsequentes de forma eficiente ao combinar a rede convolucional e o Transformer de visão. A proposta de Scale-Aware Modulation (SAM) no SMT inclui dois designs principais inovadores. Primeiramente, introduzimos o módulo Multi-Head Mixed Convolution (MHMC), que pode capturar características em múltiplas escalas e expandir o campo receptivo. Em segundo lugar, propomos o módulo Scale-Aware Aggregation (SAA), que é leve porém eficaz, permitindo a fusão de informações entre diferentes cabeças. Ao aproveitar esses dois módulos, a modulação convolucional é ainda mais aprimorada. Além disso, em contraste com trabalhos anteriores que utilizaram modulações em todos os estágios para construir uma rede sem atenção, propomos uma Rede Híbrida Evolutiva (EHN), que pode simular efetivamente a transição da captura de dependências locais para globais à medida que a rede se aprofunda, resultando em um desempenho superior. Experimentos extensivos demonstram que o SMT supera significativamente os modelos state-of-the-art existentes em uma ampla gama de tarefas visuais. Especificamente, o SMT com 11,5M / 2,4GFLOPs e 32M / 7,7GFLOPs pode alcançar 82,2% e 84,3% de precisão top-1 no ImageNet-1K, respectivamente. Após o pré-treinamento no ImageNet-22K em resolução 224^2, ele atinge 87,1% e 88,1% de precisão top-1 quando ajustado com resolução 224^2 e 384^2, respectivamente. Para detecção de objetos com Mask R-CNN, o SMT base treinado com cronograma 1x e 3x supera o Swin Transformer em 4,2 e 1,3 mAP no COCO, respectivamente. Para segmentação semântica com UPerNet, o SMT base testado em escala única e múltipla supera o Swin em 2,0 e 1,1 mIoU, respectivamente, no ADE20K.
English
This paper presents a new vision Transformer, Scale-Aware Modulation
Transformer (SMT), that can handle various downstream tasks efficiently by
combining the convolutional network and vision Transformer. The proposed
Scale-Aware Modulation (SAM) in the SMT includes two primary novel designs.
Firstly, we introduce the Multi-Head Mixed Convolution (MHMC) module, which can
capture multi-scale features and expand the receptive field. Secondly, we
propose the Scale-Aware Aggregation (SAA) module, which is lightweight but
effective, enabling information fusion across different heads. By leveraging
these two modules, convolutional modulation is further enhanced. Furthermore,
in contrast to prior works that utilized modulations throughout all stages to
build an attention-free network, we propose an Evolutionary Hybrid Network
(EHN), which can effectively simulate the shift from capturing local to global
dependencies as the network becomes deeper, resulting in superior performance.
Extensive experiments demonstrate that SMT significantly outperforms existing
state-of-the-art models across a wide range of visual tasks. Specifically, SMT
with 11.5M / 2.4GFLOPs and 32M / 7.7GFLOPs can achieve 82.2% and 84.3% top-1
accuracy on ImageNet-1K, respectively. After pretrained on ImageNet-22K in
224^2 resolution, it attains 87.1% and 88.1% top-1 accuracy when finetuned with
resolution 224^2 and 384^2, respectively. For object detection with Mask R-CNN,
the SMT base trained with 1x and 3x schedule outperforms the Swin Transformer
counterpart by 4.2 and 1.3 mAP on COCO, respectively. For semantic segmentation
with UPerNet, the SMT base test at single- and multi-scale surpasses Swin by
2.0 and 1.1 mIoU respectively on the ADE20K.