Mise à l'échelle de vos noyaux : Conception de grands noyaux dans les ConvNets vers des représentations universelles
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations
October 10, 2024
Auteurs: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Résumé
Ce document propose le paradigme des grands noyaux de convolution dans la conception des réseaux neuronaux convolutionnels modernes (ConvNets). Nous établissons que l'utilisation de quelques grands noyaux, au lieu d'empiler de multiples plus petits, peut être une stratégie de conception supérieure. Notre travail introduit un ensemble de lignes directrices de conception architecturale pour les ConvNets à grands noyaux qui optimisent leur efficacité et leurs performances. Nous proposons l'architecture UniRepLKNet, qui offre des principes de conception architecturale systématiques spécifiquement conçus pour les ConvNets à grands noyaux, mettant en avant leur capacité unique à capturer des informations spatiales étendues sans empilement de couches profondes. Cela aboutit à un modèle qui non seulement dépasse ses prédécesseurs avec une précision ImageNet de 88,0 %, un mIoU ADE20K de 55,6 % et un AP de boîte COCO de 56,4 %, mais qui démontre également une extensibilité et des performances impressionnantes sur diverses modalités telles que la prévision de séries temporelles, l'audio, les nuages de points et la reconnaissance vidéo. Ces résultats indiquent les capacités de modélisation universelles des ConvNets à grands noyaux avec une vitesse d'inférence plus rapide par rapport aux transformateurs de vision. Nos découvertes révèlent que les ConvNets à grands noyaux possèdent des champs récepteurs effectifs plus grands et un biais de forme plus élevé, s'éloignant du biais de texture typique des CNN à petits noyaux. Tous les codes et modèles sont disponibles publiquement sur https://github.com/AILab-CVC/UniRepLKNet, favorisant ainsi la recherche et le développement ultérieurs dans la communauté.
English
This paper proposes the paradigm of large convolutional kernels in designing
modern Convolutional Neural Networks (ConvNets). We establish that employing a
few large kernels, instead of stacking multiple smaller ones, can be a superior
design strategy. Our work introduces a set of architecture design guidelines
for large-kernel ConvNets that optimize their efficiency and performance. We
propose the UniRepLKNet architecture, which offers systematical architecture
design principles specifically crafted for large-kernel ConvNets, emphasizing
their unique ability to capture extensive spatial information without deep
layer stacking. This results in a model that not only surpasses its
predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a
COCO box AP of 56.4% but also demonstrates impressive scalability and
performance on various modalities such as time-series forecasting, audio, point
cloud, and video recognition. These results indicate the universal modeling
abilities of large-kernel ConvNets with faster inference speed compared with
vision transformers. Our findings reveal that large-kernel ConvNets possess
larger effective receptive fields and a higher shape bias, moving away from the
texture bias typical of smaller-kernel CNNs. All codes and models are publicly
available at https://github.com/AILab-CVC/UniRepLKNet promoting further
research and development in the community.Summary
AI-Generated Summary