Schaalbewuste Modulatie Ontmoet Transformer
Scale-Aware Modulation Meet Transformer
July 17, 2023
Auteurs: Weifeng Lin, Ziheng Wu, Jiayu Chen, Jun Huang, Lianwen Jin
cs.AI
Samenvatting
Dit artikel introduceert een nieuwe vision Transformer, de Scale-Aware Modulation Transformer (SMT), die verschillende downstream taken efficiënt kan verwerken door het convolutienetwerk en de vision Transformer te combineren. De voorgestelde Scale-Aware Modulation (SAM) in de SMT omvat twee primaire nieuwe ontwerpen. Ten eerste introduceren we de Multi-Head Mixed Convolution (MHMC) module, die multi-schaal kenmerken kan vastleggen en het receptieve veld kan uitbreiden. Ten tweede stellen we de Scale-Aware Aggregation (SAA) module voor, die lichtgewicht maar effectief is en informatie-fusie over verschillende heads mogelijk maakt. Door gebruik te maken van deze twee modules wordt convolutie-modulatie verder verbeterd. Bovendien, in tegenstelling tot eerdere werken die modulaties in alle stadia gebruikten om een aandacht-vrij netwerk te bouwen, stellen we een Evolutionair Hybride Netwerk (EHN) voor, dat effectief de overgang kan simuleren van het vastleggen van lokale naar globale afhankelijkheden naarmate het netwerk dieper wordt, wat resulteert in superieure prestaties. Uitgebreide experimenten tonen aan dat SMT aanzienlijk beter presteert dan bestaande state-of-the-art modellen over een breed scala aan visuele taken. Specifiek kan SMT met 11.5M / 2.4GFLOPs en 32M / 7.7GFLOPs respectievelijk 82.2% en 84.3% top-1 nauwkeurigheid bereiken op ImageNet-1K. Na vooraf getraind te zijn op ImageNet-22K in 224^2 resolutie, behaalt het 87.1% en 88.1% top-1 nauwkeurigheid wanneer het wordt gefinetuned met resolutie 224^2 en 384^2, respectievelijk. Voor objectdetectie met Mask R-CNN presteert de SMT base, getraind met 1x en 3x schema, respectievelijk 4.2 en 1.3 mAP beter dan de Swin Transformer tegenhanger op COCO. Voor semantische segmentatie met UPerNet overtreft de SMT base test op enkele en multi-schaal Swin met respectievelijk 2.0 en 1.1 mIoU op de ADE20K.
English
This paper presents a new vision Transformer, Scale-Aware Modulation
Transformer (SMT), that can handle various downstream tasks efficiently by
combining the convolutional network and vision Transformer. The proposed
Scale-Aware Modulation (SAM) in the SMT includes two primary novel designs.
Firstly, we introduce the Multi-Head Mixed Convolution (MHMC) module, which can
capture multi-scale features and expand the receptive field. Secondly, we
propose the Scale-Aware Aggregation (SAA) module, which is lightweight but
effective, enabling information fusion across different heads. By leveraging
these two modules, convolutional modulation is further enhanced. Furthermore,
in contrast to prior works that utilized modulations throughout all stages to
build an attention-free network, we propose an Evolutionary Hybrid Network
(EHN), which can effectively simulate the shift from capturing local to global
dependencies as the network becomes deeper, resulting in superior performance.
Extensive experiments demonstrate that SMT significantly outperforms existing
state-of-the-art models across a wide range of visual tasks. Specifically, SMT
with 11.5M / 2.4GFLOPs and 32M / 7.7GFLOPs can achieve 82.2% and 84.3% top-1
accuracy on ImageNet-1K, respectively. After pretrained on ImageNet-22K in
224^2 resolution, it attains 87.1% and 88.1% top-1 accuracy when finetuned with
resolution 224^2 and 384^2, respectively. For object detection with Mask R-CNN,
the SMT base trained with 1x and 3x schedule outperforms the Swin Transformer
counterpart by 4.2 and 1.3 mAP on COCO, respectively. For semantic segmentation
with UPerNet, the SMT base test at single- and multi-scale surpasses Swin by
2.0 and 1.1 mIoU respectively on the ADE20K.