Het opschalen van jouw kernels: Groot kernelontwerp in ConvNets naar universele representaties
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations
October 10, 2024
Auteurs: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Samenvatting
Deze paper stelt het paradigma van grote convolutiekernen voor bij het ontwerpen van moderne Convolutional Neural Networks (ConvNets). We tonen aan dat het gebruik van enkele grote kernels, in plaats van het stapelen van meerdere kleinere, een superieure ontwerpaanpak kan zijn. Ons werk introduceert een reeks richtlijnen voor architectuurontwerp voor ConvNets met grote kernels die hun efficiëntie en prestaties optimaliseren. We stellen de UniRepLKNet-architectuur voor, die systematische architectuurontwerpprincipes biedt die specifiek zijn ontwikkeld voor ConvNets met grote kernels, waarbij hun unieke vermogen om uitgebreide ruimtelijke informatie vast te leggen zonder diepe laagstapeling wordt benadrukt. Dit resulteert in een model dat niet alleen zijn voorgangers overtreft met een ImageNet-nauwkeurigheid van 88,0%, een ADE20K mIoU van 55,6% en een COCO box AP van 56,4%, maar ook indrukwekkende schaalbaarheid en prestaties laat zien op verschillende modaliteiten zoals tijdreeksvoorspelling, audio, puntenwolk en videoregistratie. Deze resultaten duiden op de universele modelleringsmogelijkheden van ConvNets met grote kernels met een snellere inferentiesnelheid in vergelijking met vision transformers. Onze bevindingen tonen aan dat ConvNets met grote kernels grotere effectieve receptieve velden en een hogere vormbias hebben, weg van de textuurbias die typerend is voor CNN's met kleinere kernels. Alle codes en modellen zijn openbaar beschikbaar op https://github.com/AILab-CVC/UniRepLKNet ter bevordering van verder onderzoek en ontwikkeling in de gemeenschap.
English
This paper proposes the paradigm of large convolutional kernels in designing
modern Convolutional Neural Networks (ConvNets). We establish that employing a
few large kernels, instead of stacking multiple smaller ones, can be a superior
design strategy. Our work introduces a set of architecture design guidelines
for large-kernel ConvNets that optimize their efficiency and performance. We
propose the UniRepLKNet architecture, which offers systematical architecture
design principles specifically crafted for large-kernel ConvNets, emphasizing
their unique ability to capture extensive spatial information without deep
layer stacking. This results in a model that not only surpasses its
predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a
COCO box AP of 56.4% but also demonstrates impressive scalability and
performance on various modalities such as time-series forecasting, audio, point
cloud, and video recognition. These results indicate the universal modeling
abilities of large-kernel ConvNets with faster inference speed compared with
vision transformers. Our findings reveal that large-kernel ConvNets possess
larger effective receptive fields and a higher shape bias, moving away from the
texture bias typical of smaller-kernel CNNs. All codes and models are publicly
available at https://github.com/AILab-CVC/UniRepLKNet promoting further
research and development in the community.