Ingrandire i tuoi kernel: Progettazione di kernel di grandi dimensioni in ConvNets verso Rappresentazioni Universali
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations
October 10, 2024
Autori: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Abstract
Questo articolo propone il paradigma dei grandi kernel convoluzionali nella progettazione dei moderni Convolutional Neural Networks (ConvNets). Dimostriamo che l'utilizzo di alcuni grandi kernel, anziché impilare più kernel più piccoli, può essere una strategia di progettazione superiore. Il nostro lavoro introduce un insieme di linee guida per la progettazione dell'architettura per grandi ConvNets a kernel, che ottimizzano la loro efficienza e prestazioni. Proponiamo l'architettura UniRepLKNet, che offre principi di progettazione dell'architettura sistematici appositamente creati per i ConvNets a grandi kernel, sottolineando la loro capacità unica di catturare informazioni spaziali estese senza impilare strati profondi. Ciò porta a un modello che non solo supera i suoi predecessori con un'accuratezza ImageNet dell'88,0%, un mIoU ADE20K del 55,6% e un AP COCO box del 56,4%, ma dimostra anche un'imprescindibile scalabilità e prestazioni su varie modalità come la previsione delle serie temporali, l'audio, i punti cloud e il riconoscimento video. Questi risultati indicano le capacità di modellizzazione universali dei ConvNets a grandi kernel con una maggiore velocità di inferenza rispetto ai vision transformers. Le nostre scoperte rivelano che i ConvNets a grandi kernel possiedono campi recettivi efficaci più ampi e un maggiore bias di forma, allontanandosi dal bias di texture tipico delle CNN a kernel più piccoli. Tutti i codici e i modelli sono pubblicamente disponibili su https://github.com/AILab-CVC/UniRepLKNet per promuovere ulteriori ricerche e sviluppo nella comunità.
English
This paper proposes the paradigm of large convolutional kernels in designing
modern Convolutional Neural Networks (ConvNets). We establish that employing a
few large kernels, instead of stacking multiple smaller ones, can be a superior
design strategy. Our work introduces a set of architecture design guidelines
for large-kernel ConvNets that optimize their efficiency and performance. We
propose the UniRepLKNet architecture, which offers systematical architecture
design principles specifically crafted for large-kernel ConvNets, emphasizing
their unique ability to capture extensive spatial information without deep
layer stacking. This results in a model that not only surpasses its
predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a
COCO box AP of 56.4% but also demonstrates impressive scalability and
performance on various modalities such as time-series forecasting, audio, point
cloud, and video recognition. These results indicate the universal modeling
abilities of large-kernel ConvNets with faster inference speed compared with
vision transformers. Our findings reveal that large-kernel ConvNets possess
larger effective receptive fields and a higher shape bias, moving away from the
texture bias typical of smaller-kernel CNNs. All codes and models are publicly
available at https://github.com/AILab-CVC/UniRepLKNet promoting further
research and development in the community.