Modulation Sensible à l'Échelle Rencontre le Transformer
Scale-Aware Modulation Meet Transformer
July 17, 2023
Auteurs: Weifeng Lin, Ziheng Wu, Jiayu Chen, Jun Huang, Lianwen Jin
cs.AI
Résumé
Cet article présente un nouveau Transformer visuel, le Scale-Aware Modulation Transformer (SMT), capable de gérer efficacement diverses tâches en aval en combinant le réseau convolutif et le Transformer visuel. La modulation Scale-Aware (SAM) proposée dans le SMT inclut deux conceptions novatrices principales. Premièrement, nous introduisons le module Multi-Head Mixed Convolution (MHMC), qui peut capturer des caractéristiques multi-échelles et étendre le champ réceptif. Deuxièmement, nous proposons le module Scale-Aware Aggregation (SAA), léger mais efficace, permettant la fusion d'informations entre différentes têtes. En exploitant ces deux modules, la modulation convolutive est encore améliorée. De plus, contrairement aux travaux antérieurs qui utilisaient des modulations à toutes les étapes pour construire un réseau sans attention, nous proposons un réseau hybride évolutif (EHN), qui peut simuler efficacement le passage de la capture de dépendances locales à globales à mesure que le réseau s'approfondit, aboutissant à des performances supérieures. Des expériences approfondies démontrent que le SMT surpasse significativement les modèles de pointe existants sur une large gamme de tâches visuelles. Plus précisément, le SMT avec 11,5M / 2,4GFLOPs et 32M / 7,7GFLOPs peut atteindre respectivement 82,2% et 84,3% de précision top-1 sur ImageNet-1K. Après un pré-entraînement sur ImageNet-22K en résolution 224^2, il atteint 87,1% et 88,1% de précision top-1 lors d'un réglage fin avec des résolutions de 224^2 et 384^2, respectivement. Pour la détection d'objets avec Mask R-CNN, le SMT base entraîné avec des plannings 1x et 3x surpasse le Swin Transformer de 4,2 et 1,3 mAP sur COCO, respectivement. Pour la segmentation sémantique avec UPerNet, le SMT base testé en mono-échelle et multi-échelle dépasse Swin de 2,0 et 1,1 mIoU respectivement sur ADE20K.
English
This paper presents a new vision Transformer, Scale-Aware Modulation
Transformer (SMT), that can handle various downstream tasks efficiently by
combining the convolutional network and vision Transformer. The proposed
Scale-Aware Modulation (SAM) in the SMT includes two primary novel designs.
Firstly, we introduce the Multi-Head Mixed Convolution (MHMC) module, which can
capture multi-scale features and expand the receptive field. Secondly, we
propose the Scale-Aware Aggregation (SAA) module, which is lightweight but
effective, enabling information fusion across different heads. By leveraging
these two modules, convolutional modulation is further enhanced. Furthermore,
in contrast to prior works that utilized modulations throughout all stages to
build an attention-free network, we propose an Evolutionary Hybrid Network
(EHN), which can effectively simulate the shift from capturing local to global
dependencies as the network becomes deeper, resulting in superior performance.
Extensive experiments demonstrate that SMT significantly outperforms existing
state-of-the-art models across a wide range of visual tasks. Specifically, SMT
with 11.5M / 2.4GFLOPs and 32M / 7.7GFLOPs can achieve 82.2% and 84.3% top-1
accuracy on ImageNet-1K, respectively. After pretrained on ImageNet-22K in
224^2 resolution, it attains 87.1% and 88.1% top-1 accuracy when finetuned with
resolution 224^2 and 384^2, respectively. For object detection with Mask R-CNN,
the SMT base trained with 1x and 3x schedule outperforms the Swin Transformer
counterpart by 4.2 and 1.3 mAP on COCO, respectively. For semantic segmentation
with UPerNet, the SMT base test at single- and multi-scale surpasses Swin by
2.0 and 1.1 mIoU respectively on the ADE20K.