ChatPaper.aiChatPaper

커널 확장: 컨볼루션 신경망에서 대규모 커널 디자인으로 향하는 범용 표현력

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

October 10, 2024
저자: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI

초록

본 논문은 현대적인 합성곱 신경망(ConvNets) 설계에서 대형 컨볼루션 커널의 패러다임을 제안합니다. 여러 개의 작은 커널을 쌓는 대신 몇 개의 대형 커널을 사용하는 것이 우수한 설계 전략일 수 있다는 것을 입증합니다. 저희 연구는 대형 커널 ConvNets의 효율성과 성능을 최적화하는 일련의 아키텍처 설계 지침을 소개합니다. 대형 커널 ConvNets를 위해 특별히 개발된 체계적인 아키텍처 설계 원칙을 제시하는 UniRepLKNet 아키텍처를 제안하며, 이는 깊은 레이어 쌓임 없이도 광범위한 공간 정보를 캡처하는 이들의 독특한 능력을 강조합니다. 이로 인해 ImageNet 정확도 88.0%, ADE20K mIoU 55.6%, COCO box AP 56.4%를 달성하는 모델이 탄생하였으며, 시계열 예측, 오디오, 포인트 클라우드, 비디오 인식과 같은 다양한 모달리티에서 높은 확장성과 성능을 보여줍니다. 이러한 결과는 대형 커널 ConvNets의 범용 모델링 능력을 나타내며, 비전 트랜스포머에 비해 빠른 추론 속도를 보여줍니다. 저희의 연구 결과는 대형 커널 ConvNets가 더 큰 유효 수용 영역과 더 높은 형태 편향을 갖고 있으며, 작은 커널 CNN의 질감 편향에서 벗어나고 있음을 보여줍니다. 모든 코드와 모델은 https://github.com/AILab-CVC/UniRepLKNet에서 공개되어 있으며, 커뮤니티 내에서의 추가 연구 및 개발을 촉진하고 있습니다.
English
This paper proposes the paradigm of large convolutional kernels in designing modern Convolutional Neural Networks (ConvNets). We establish that employing a few large kernels, instead of stacking multiple smaller ones, can be a superior design strategy. Our work introduces a set of architecture design guidelines for large-kernel ConvNets that optimize their efficiency and performance. We propose the UniRepLKNet architecture, which offers systematical architecture design principles specifically crafted for large-kernel ConvNets, emphasizing their unique ability to capture extensive spatial information without deep layer stacking. This results in a model that not only surpasses its predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a COCO box AP of 56.4% but also demonstrates impressive scalability and performance on various modalities such as time-series forecasting, audio, point cloud, and video recognition. These results indicate the universal modeling abilities of large-kernel ConvNets with faster inference speed compared with vision transformers. Our findings reveal that large-kernel ConvNets possess larger effective receptive fields and a higher shape bias, moving away from the texture bias typical of smaller-kernel CNNs. All codes and models are publicly available at https://github.com/AILab-CVC/UniRepLKNet promoting further research and development in the community.

Summary

AI-Generated Summary

PDF82November 16, 2024