Масштабно-зависимая модуляция встречается с трансформером

Аннотация

В данной статье представлен новый Vision Transformer, называемый Scale-Aware Modulation Transformer (SMT), который эффективно справляется с различными задачами, сочетая в себе сверточные сети и Vision Transformer. Предложенный метод Scale-Aware Modulation (SAM) в SMT включает два основных нововведения. Во-первых, мы представляем модуль Multi-Head Mixed Convolution (MHMC), который способен захватывать признаки на разных масштабах и расширять рецептивное поле. Во-вторых, мы предлагаем модуль Scale-Aware Aggregation (SAA), который является легковесным, но эффективным, позволяя объединять информацию между различными "головами". Благодаря этим двум модулям, сверточная модуляция дополнительно улучшается. Кроме того, в отличие от предыдущих работ, где модуляции использовались на всех этапах для создания сети без внимания, мы предлагаем Evolutionary Hybrid Network (EHN), которая эффективно моделирует переход от захвата локальных зависимостей к глобальным по мере углубления сети, что приводит к превосходной производительности. Многочисленные эксперименты показывают, что SMT значительно превосходит существующие передовые модели в широком спектре визуальных задач. В частности, SMT с 11.5M параметров / 2.4 GFLOPs и 32M параметров / 7.7 GFLOPs достигает точности 82.2% и 84.3% top-1 на ImageNet-1K соответственно. После предварительного обучения на ImageNet-22K с разрешением 224^2, модель достигает точности 87.1% и 88.1% top-1 при дообучении с разрешением 224^2 и 384^2 соответственно. Для задачи обнаружения объектов с использованием Mask R-CNN, базовая версия SMT, обученная по расписанию 1x и 3x, превосходит Swin Transformer на 4.2 и 1.3 mAP на COCO соответственно. Для семантической сегментации с использованием UPerNet, базовая версия SMT при тестировании на одном и нескольких масштабах превосходит Swin на 2.0 и 1.1 mIoU соответственно на ADE20K.

English

This paper presents a new vision Transformer, Scale-Aware Modulation Transformer (SMT), that can handle various downstream tasks efficiently by combining the convolutional network and vision Transformer. The proposed Scale-Aware Modulation (SAM) in the SMT includes two primary novel designs. Firstly, we introduce the Multi-Head Mixed Convolution (MHMC) module, which can capture multi-scale features and expand the receptive field. Secondly, we propose the Scale-Aware Aggregation (SAA) module, which is lightweight but effective, enabling information fusion across different heads. By leveraging these two modules, convolutional modulation is further enhanced. Furthermore, in contrast to prior works that utilized modulations throughout all stages to build an attention-free network, we propose an Evolutionary Hybrid Network (EHN), which can effectively simulate the shift from capturing local to global dependencies as the network becomes deeper, resulting in superior performance. Extensive experiments demonstrate that SMT significantly outperforms existing state-of-the-art models across a wide range of visual tasks. Specifically, SMT with 11.5M / 2.4GFLOPs and 32M / 7.7GFLOPs can achieve 82.2% and 84.3% top-1 accuracy on ImageNet-1K, respectively. After pretrained on ImageNet-22K in 224^2 resolution, it attains 87.1% and 88.1% top-1 accuracy when finetuned with resolution 224^2 and 384^2, respectively. For object detection with Mask R-CNN, the SMT base trained with 1x and 3x schedule outperforms the Swin Transformer counterpart by 4.2 and 1.3 mAP on COCO, respectively. For semantic segmentation with UPerNet, the SMT base test at single- and multi-scale surpasses Swin by 2.0 and 1.1 mIoU respectively on the ADE20K.

Масштабно-зависимая модуляция встречается с трансформером

Scale-Aware Modulation Meet Transformer

Аннотация

Support