Expandindo seus Kernels: Design de Kernels Grandes em ConvNets em direção a Representações Universais
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations
October 10, 2024
Autores: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Resumo
Este artigo propõe o paradigma de grandes kernels convolucionais no design de Redes Neurais Convolucionais (ConvNets) modernas. Estabelecemos que o uso de alguns grandes kernels, em vez de empilhar vários menores, pode ser uma estratégia de design superior. Nosso trabalho introduz um conjunto de diretrizes de design de arquitetura para ConvNets de grandes kernels que otimizam sua eficiência e desempenho. Propomos a arquitetura UniRepLKNet, que oferece princípios de design de arquitetura sistematizados especificamente elaborados para ConvNets de grandes kernels, enfatizando sua capacidade única de capturar informações espaciais extensivas sem empilhamento profundo de camadas. Isso resulta em um modelo que não apenas supera seus predecessores com uma precisão no ImageNet de 88,0%, um mIoU no ADE20K de 55,6% e um AP de caixa no COCO de 56,4%, mas também demonstra escalabilidade e desempenho impressionantes em várias modalidades, como previsão de séries temporais, áudio, nuvem de pontos e reconhecimento de vídeo. Esses resultados indicam as habilidades de modelagem universais de ConvNets de grandes kernels com uma velocidade de inferência mais rápida em comparação com os transformadores de visão. Nossas descobertas revelam que ConvNets de grandes kernels possuem campos receptivos eficazes maiores e um viés de forma mais alto, afastando-se do viés de textura típico das CNNs de pequenos kernels. Todos os códigos e modelos estão disponíveis publicamente em https://github.com/AILab-CVC/UniRepLKNet, promovendo pesquisas e desenvolvimentos adicionais na comunidade.
English
This paper proposes the paradigm of large convolutional kernels in designing
modern Convolutional Neural Networks (ConvNets). We establish that employing a
few large kernels, instead of stacking multiple smaller ones, can be a superior
design strategy. Our work introduces a set of architecture design guidelines
for large-kernel ConvNets that optimize their efficiency and performance. We
propose the UniRepLKNet architecture, which offers systematical architecture
design principles specifically crafted for large-kernel ConvNets, emphasizing
their unique ability to capture extensive spatial information without deep
layer stacking. This results in a model that not only surpasses its
predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a
COCO box AP of 56.4% but also demonstrates impressive scalability and
performance on various modalities such as time-series forecasting, audio, point
cloud, and video recognition. These results indicate the universal modeling
abilities of large-kernel ConvNets with faster inference speed compared with
vision transformers. Our findings reveal that large-kernel ConvNets possess
larger effective receptive fields and a higher shape bias, moving away from the
texture bias typical of smaller-kernel CNNs. All codes and models are publicly
available at https://github.com/AILab-CVC/UniRepLKNet promoting further
research and development in the community.