Масштабирование ваших ядер: проектирование крупных ядер в сверточных нейронных сетях к универсальным представлениям

Аннотация

Эта статья предлагает парадигму использования больших сверточных ядер при проектировании современных сверточных нейронных сетей (CNN). Мы устанавливаем, что использование нескольких крупных ядер, вместо стека нескольких меньших, может быть более эффективной стратегией дизайна. Наша работа представляет набор рекомендаций по проектированию архитектуры для больших сверточных CNN, которые оптимизируют их эффективность и производительность. Мы предлагаем архитектуру UniRepLKNet, которая предлагает систематические принципы проектирования архитектуры, специально разработанные для больших сверточных CNN, акцентируя их уникальную способность захватывать обширную пространственную информацию без глубокого стекинга слоев. Это приводит к модели, которая не только превосходит своих предшественников с точностью ImageNet 88,0%, ADE20K mIoU 55,6% и COCO box AP 56,4%, но также демонстрирует впечатляющую масштабируемость и производительность на различных модальностях, таких как прогнозирование временных рядов, аудио, облака точек и распознавание видео. Эти результаты указывают на универсальные возможности моделирования больших сверточных CNN с более быстрой скоростью вывода по сравнению с видовыми трансформерами. Наши результаты показывают, что большие сверточные CNN обладают более крупными эффективными рецептивными полями и более высоким смещением формы, отходя от типичного текстурного смещения меньших сверточных CNN. Весь код и модели доступны публично по адресу https://github.com/AILab-CVC/UniRepLKNet для поощрения дальнейших исследований и разработок в сообществе.

English

This paper proposes the paradigm of large convolutional kernels in designing modern Convolutional Neural Networks (ConvNets). We establish that employing a few large kernels, instead of stacking multiple smaller ones, can be a superior design strategy. Our work introduces a set of architecture design guidelines for large-kernel ConvNets that optimize their efficiency and performance. We propose the UniRepLKNet architecture, which offers systematical architecture design principles specifically crafted for large-kernel ConvNets, emphasizing their unique ability to capture extensive spatial information without deep layer stacking. This results in a model that not only surpasses its predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a COCO box AP of 56.4% but also demonstrates impressive scalability and performance on various modalities such as time-series forecasting, audio, point cloud, and video recognition. These results indicate the universal modeling abilities of large-kernel ConvNets with faster inference speed compared with vision transformers. Our findings reveal that large-kernel ConvNets possess larger effective receptive fields and a higher shape bias, moving away from the texture bias typical of smaller-kernel CNNs. All codes and models are publicly available at https://github.com/AILab-CVC/UniRepLKNet promoting further research and development in the community.

Масштабирование ваших ядер: проектирование крупных ядер в сверточных нейронных сетях к универсальным представлениям

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Аннотация

Summary

Support

Support