Ampliando tus núcleos: Diseño de núcleos grandes en ConvNets hacia Representaciones Universales
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations
October 10, 2024
Autores: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Resumen
Este documento propone el paradigma de grandes núcleos convolucionales en el diseño de las modernas Redes Neuronales Convolucionales (ConvNets). Establecemos que emplear unos pocos núcleos grandes, en lugar de apilar múltiples más pequeños, puede ser una estrategia de diseño superior. Nuestro trabajo introduce un conjunto de pautas de diseño de arquitectura para ConvNets de grandes núcleos que optimizan su eficiencia y rendimiento. Proponemos la arquitectura UniRepLKNet, que ofrece principios de diseño de arquitectura sistemáticamente elaborados para ConvNets de grandes núcleos, enfatizando su capacidad única para capturar una amplia información espacial sin apilar capas profundas. Esto resulta en un modelo que no solo supera a sus predecesores con una precisión de ImageNet del 88.0%, un mIoU de ADE20K del 55.6%, y un AP de caja COCO del 56.4%, sino que también demuestra una impresionante escalabilidad y rendimiento en diversas modalidades como pronóstico de series temporales, audio, nube de puntos y reconocimiento de video. Estos resultados indican las capacidades de modelado universales de los ConvNets de grandes núcleos con una velocidad de inferencia más rápida en comparación con los transformadores de visión. Nuestros hallazgos revelan que los ConvNets de grandes núcleos poseen campos receptivos efectivos más grandes y un sesgo de forma más alto, alejándose del sesgo de textura típico de las CNNs de núcleo más pequeño. Todos los códigos y modelos están disponibles públicamente en https://github.com/AILab-CVC/UniRepLKNet promoviendo una mayor investigación y desarrollo en la comunidad.
English
This paper proposes the paradigm of large convolutional kernels in designing
modern Convolutional Neural Networks (ConvNets). We establish that employing a
few large kernels, instead of stacking multiple smaller ones, can be a superior
design strategy. Our work introduces a set of architecture design guidelines
for large-kernel ConvNets that optimize their efficiency and performance. We
propose the UniRepLKNet architecture, which offers systematical architecture
design principles specifically crafted for large-kernel ConvNets, emphasizing
their unique ability to capture extensive spatial information without deep
layer stacking. This results in a model that not only surpasses its
predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a
COCO box AP of 56.4% but also demonstrates impressive scalability and
performance on various modalities such as time-series forecasting, audio, point
cloud, and video recognition. These results indicate the universal modeling
abilities of large-kernel ConvNets with faster inference speed compared with
vision transformers. Our findings reveal that large-kernel ConvNets possess
larger effective receptive fields and a higher shape bias, moving away from the
texture bias typical of smaller-kernel CNNs. All codes and models are publicly
available at https://github.com/AILab-CVC/UniRepLKNet promoting further
research and development in the community.Summary
AI-Generated Summary