Ingrandire i tuoi kernel: Progettazione di kernel di grandi dimensioni in ConvNets verso Rappresentazioni Universali

Abstract

Questo articolo propone il paradigma dei grandi kernel convoluzionali nella progettazione dei moderni Convolutional Neural Networks (ConvNets). Dimostriamo che l'utilizzo di alcuni grandi kernel, anziché impilare più kernel più piccoli, può essere una strategia di progettazione superiore. Il nostro lavoro introduce un insieme di linee guida per la progettazione dell'architettura per grandi ConvNets a kernel, che ottimizzano la loro efficienza e prestazioni. Proponiamo l'architettura UniRepLKNet, che offre principi di progettazione dell'architettura sistematici appositamente creati per i ConvNets a grandi kernel, sottolineando la loro capacità unica di catturare informazioni spaziali estese senza impilare strati profondi. Ciò porta a un modello che non solo supera i suoi predecessori con un'accuratezza ImageNet dell'88,0%, un mIoU ADE20K del 55,6% e un AP COCO box del 56,4%, ma dimostra anche un'imprescindibile scalabilità e prestazioni su varie modalità come la previsione delle serie temporali, l'audio, i punti cloud e il riconoscimento video. Questi risultati indicano le capacità di modellizzazione universali dei ConvNets a grandi kernel con una maggiore velocità di inferenza rispetto ai vision transformers. Le nostre scoperte rivelano che i ConvNets a grandi kernel possiedono campi recettivi efficaci più ampi e un maggiore bias di forma, allontanandosi dal bias di texture tipico delle CNN a kernel più piccoli. Tutti i codici e i modelli sono pubblicamente disponibili su https://github.com/AILab-CVC/UniRepLKNet per promuovere ulteriori ricerche e sviluppo nella comunità.

English

This paper proposes the paradigm of large convolutional kernels in designing modern Convolutional Neural Networks (ConvNets). We establish that employing a few large kernels, instead of stacking multiple smaller ones, can be a superior design strategy. Our work introduces a set of architecture design guidelines for large-kernel ConvNets that optimize their efficiency and performance. We propose the UniRepLKNet architecture, which offers systematical architecture design principles specifically crafted for large-kernel ConvNets, emphasizing their unique ability to capture extensive spatial information without deep layer stacking. This results in a model that not only surpasses its predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a COCO box AP of 56.4% but also demonstrates impressive scalability and performance on various modalities such as time-series forecasting, audio, point cloud, and video recognition. These results indicate the universal modeling abilities of large-kernel ConvNets with faster inference speed compared with vision transformers. Our findings reveal that large-kernel ConvNets possess larger effective receptive fields and a higher shape bias, moving away from the texture bias typical of smaller-kernel CNNs. All codes and models are publicly available at https://github.com/AILab-CVC/UniRepLKNet promoting further research and development in the community.

Ingrandire i tuoi kernel: Progettazione di kernel di grandi dimensioni in ConvNets verso Rappresentazioni Universali

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Abstract

Support