Mise à l'échelle de vos noyaux : Conception de grands noyaux dans les ConvNets vers des représentations universelles

Résumé

Ce document propose le paradigme des grands noyaux de convolution dans la conception des réseaux neuronaux convolutionnels modernes (ConvNets). Nous établissons que l'utilisation de quelques grands noyaux, au lieu d'empiler de multiples plus petits, peut être une stratégie de conception supérieure. Notre travail introduit un ensemble de lignes directrices de conception architecturale pour les ConvNets à grands noyaux qui optimisent leur efficacité et leurs performances. Nous proposons l'architecture UniRepLKNet, qui offre des principes de conception architecturale systématiques spécifiquement conçus pour les ConvNets à grands noyaux, mettant en avant leur capacité unique à capturer des informations spatiales étendues sans empilement de couches profondes. Cela aboutit à un modèle qui non seulement dépasse ses prédécesseurs avec une précision ImageNet de 88,0 %, un mIoU ADE20K de 55,6 % et un AP de boîte COCO de 56,4 %, mais qui démontre également une extensibilité et des performances impressionnantes sur diverses modalités telles que la prévision de séries temporelles, l'audio, les nuages de points et la reconnaissance vidéo. Ces résultats indiquent les capacités de modélisation universelles des ConvNets à grands noyaux avec une vitesse d'inférence plus rapide par rapport aux transformateurs de vision. Nos découvertes révèlent que les ConvNets à grands noyaux possèdent des champs récepteurs effectifs plus grands et un biais de forme plus élevé, s'éloignant du biais de texture typique des CNN à petits noyaux. Tous les codes et modèles sont disponibles publiquement sur https://github.com/AILab-CVC/UniRepLKNet, favorisant ainsi la recherche et le développement ultérieurs dans la communauté.

English

This paper proposes the paradigm of large convolutional kernels in designing modern Convolutional Neural Networks (ConvNets). We establish that employing a few large kernels, instead of stacking multiple smaller ones, can be a superior design strategy. Our work introduces a set of architecture design guidelines for large-kernel ConvNets that optimize their efficiency and performance. We propose the UniRepLKNet architecture, which offers systematical architecture design principles specifically crafted for large-kernel ConvNets, emphasizing their unique ability to capture extensive spatial information without deep layer stacking. This results in a model that not only surpasses its predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a COCO box AP of 56.4% but also demonstrates impressive scalability and performance on various modalities such as time-series forecasting, audio, point cloud, and video recognition. These results indicate the universal modeling abilities of large-kernel ConvNets with faster inference speed compared with vision transformers. Our findings reveal that large-kernel ConvNets possess larger effective receptive fields and a higher shape bias, moving away from the texture bias typical of smaller-kernel CNNs. All codes and models are publicly available at https://github.com/AILab-CVC/UniRepLKNet promoting further research and development in the community.

Mise à l'échelle de vos noyaux : Conception de grands noyaux dans les ConvNets vers des représentations universelles

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Résumé

Summary

Support

Support