Skalenbewusste Modulation trifft auf Transformer
Scale-Aware Modulation Meet Transformer
July 17, 2023
Autoren: Weifeng Lin, Ziheng Wu, Jiayu Chen, Jun Huang, Lianwen Jin
cs.AI
Zusammenfassung
Dieses Papier stellt einen neuen Vision Transformer vor, den Scale-Aware Modulation Transformer (SMT), der verschiedene Downstream-Aufgaben effizient bewältigen kann, indem er das konvolutionale Netzwerk und den Vision Transformer kombiniert. Die vorgeschlagene Scale-Aware Modulation (SAM) im SMT umfasst zwei primäre neuartige Designs. Erstens führen wir das Multi-Head Mixed Convolution (MHMC)-Modul ein, das mehrskalige Merkmale erfassen und das rezeptive Feld erweitern kann. Zweitens schlagen wir das Scale-Aware Aggregation (SAA)-Modul vor, das leichtgewichtig aber effektiv ist und die Informationsfusion über verschiedene Köpfe hinweg ermöglicht. Durch die Nutzung dieser beiden Module wird die konvolutionale Modulation weiter verbessert. Darüber hinaus schlagen wir im Gegensatz zu früheren Arbeiten, die Modulationen in allen Stufen verwendeten, um ein netzwerk ohne Aufmerksamkeitsmechanismus zu bauen, ein Evolutionary Hybrid Network (EHN) vor, das effektiv den Übergang von der Erfassung lokaler zu globaler Abhängigkeiten simulieren kann, wenn das Netzwerk tiefer wird, was zu einer überlegenen Leistung führt. Umfangreiche Experimente zeigen, dass der SMT bestehende state-of-the-art Modelle bei einer Vielzahl von visuellen Aufgaben deutlich übertrifft. Insbesondere kann der SMT mit 11,5 Mio. Parametern / 2,4 GFLOPs und 32 Mio. Parametern / 7,7 GFLOPs eine Top-1-Genauigkeit von 82,2 % bzw. 84,3 % auf ImageNet-1K erreichen. Nach dem Vortraining auf ImageNet-22K in einer Auflösung von 224^2 erreicht er beim Feinabstimmen mit einer Auflösung von 224^2 und 384^2 eine Top-1-Genauigkeit von 87,1 % bzw. 88,1 %. Bei der Objekterkennung mit Mask R-CNN übertrifft der SMT-Basis, der mit einem 1x- und 3x-Schedule trainiert wurde, den Swin Transformer-Konkurrenten um 4,2 bzw. 1,3 mAP auf COCO. Bei der semantischen Segmentierung mit UPerNet übertrifft der SMT-Basis-Test im Einzel- und Mehrskalenbetrieb Swin um 2,0 bzw. 1,1 mIoU auf ADE20K.
English
This paper presents a new vision Transformer, Scale-Aware Modulation
Transformer (SMT), that can handle various downstream tasks efficiently by
combining the convolutional network and vision Transformer. The proposed
Scale-Aware Modulation (SAM) in the SMT includes two primary novel designs.
Firstly, we introduce the Multi-Head Mixed Convolution (MHMC) module, which can
capture multi-scale features and expand the receptive field. Secondly, we
propose the Scale-Aware Aggregation (SAA) module, which is lightweight but
effective, enabling information fusion across different heads. By leveraging
these two modules, convolutional modulation is further enhanced. Furthermore,
in contrast to prior works that utilized modulations throughout all stages to
build an attention-free network, we propose an Evolutionary Hybrid Network
(EHN), which can effectively simulate the shift from capturing local to global
dependencies as the network becomes deeper, resulting in superior performance.
Extensive experiments demonstrate that SMT significantly outperforms existing
state-of-the-art models across a wide range of visual tasks. Specifically, SMT
with 11.5M / 2.4GFLOPs and 32M / 7.7GFLOPs can achieve 82.2% and 84.3% top-1
accuracy on ImageNet-1K, respectively. After pretrained on ImageNet-22K in
224^2 resolution, it attains 87.1% and 88.1% top-1 accuracy when finetuned with
resolution 224^2 and 384^2, respectively. For object detection with Mask R-CNN,
the SMT base trained with 1x and 3x schedule outperforms the Swin Transformer
counterpart by 4.2 and 1.3 mAP on COCO, respectively. For semantic segmentation
with UPerNet, the SMT base test at single- and multi-scale surpasses Swin by
2.0 and 1.1 mIoU respectively on the ADE20K.