Масштабирование ваших ядер: проектирование крупных ядер в сверточных нейронных сетях к универсальным представлениям
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations
October 10, 2024
Авторы: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Аннотация
Эта статья предлагает парадигму использования больших сверточных ядер при проектировании современных сверточных нейронных сетей (CNN). Мы устанавливаем, что использование нескольких крупных ядер, вместо стека нескольких меньших, может быть более эффективной стратегией дизайна. Наша работа представляет набор рекомендаций по проектированию архитектуры для больших сверточных CNN, которые оптимизируют их эффективность и производительность. Мы предлагаем архитектуру UniRepLKNet, которая предлагает систематические принципы проектирования архитектуры, специально разработанные для больших сверточных CNN, акцентируя их уникальную способность захватывать обширную пространственную информацию без глубокого стекинга слоев. Это приводит к модели, которая не только превосходит своих предшественников с точностью ImageNet 88,0%, ADE20K mIoU 55,6% и COCO box AP 56,4%, но также демонстрирует впечатляющую масштабируемость и производительность на различных модальностях, таких как прогнозирование временных рядов, аудио, облака точек и распознавание видео. Эти результаты указывают на универсальные возможности моделирования больших сверточных CNN с более быстрой скоростью вывода по сравнению с видовыми трансформерами. Наши результаты показывают, что большие сверточные CNN обладают более крупными эффективными рецептивными полями и более высоким смещением формы, отходя от типичного текстурного смещения меньших сверточных CNN. Весь код и модели доступны публично по адресу https://github.com/AILab-CVC/UniRepLKNet для поощрения дальнейших исследований и разработок в сообществе.
English
This paper proposes the paradigm of large convolutional kernels in designing
modern Convolutional Neural Networks (ConvNets). We establish that employing a
few large kernels, instead of stacking multiple smaller ones, can be a superior
design strategy. Our work introduces a set of architecture design guidelines
for large-kernel ConvNets that optimize their efficiency and performance. We
propose the UniRepLKNet architecture, which offers systematical architecture
design principles specifically crafted for large-kernel ConvNets, emphasizing
their unique ability to capture extensive spatial information without deep
layer stacking. This results in a model that not only surpasses its
predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a
COCO box AP of 56.4% but also demonstrates impressive scalability and
performance on various modalities such as time-series forecasting, audio, point
cloud, and video recognition. These results indicate the universal modeling
abilities of large-kernel ConvNets with faster inference speed compared with
vision transformers. Our findings reveal that large-kernel ConvNets possess
larger effective receptive fields and a higher shape bias, moving away from the
texture bias typical of smaller-kernel CNNs. All codes and models are publicly
available at https://github.com/AILab-CVC/UniRepLKNet promoting further
research and development in the community.Summary
AI-Generated Summary