Skalierung Ihrer Kernel: Großes Kernel-Design in ConvNets hin zu universellen Repräsentationen
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations
October 10, 2024
Autoren: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Zusammenfassung
Dieses Paper schlägt das Paradigma großer Faltungskerne bei der Gestaltung moderner Faltungsneuronaler Netzwerke (ConvNets) vor. Wir zeigen, dass die Verwendung weniger großer Kerne anstelle des Stapelns mehrerer kleiner Kerne eine überlegene Designstrategie sein kann. Unsere Arbeit stellt eine Reihe von Architektur-Designrichtlinien für ConvNets mit großen Kernen vor, die deren Effizienz und Leistung optimieren. Wir schlagen die Architektur UniRepLKNet vor, die systematische Architekturdesignprinzipien speziell für ConvNets mit großen Kernen bietet und ihre einzigartige Fähigkeit betont, umfangreiche räumliche Informationen ohne tiefe Schichtstapelung zu erfassen. Dies führt zu einem Modell, das nicht nur seine Vorgänger mit einer ImageNet-Genauigkeit von 88,0%, einer ADE20K mIoU von 55,6% und einem COCO-Box-AP von 56,4% übertrifft, sondern auch eine beeindruckende Skalierbarkeit und Leistungsfähigkeit in verschiedenen Modalitäten wie Zeitreihenprognosen, Audio, Punktwolken und Videokennung zeigt. Diese Ergebnisse deuten auf die universellen Modellierungsfähigkeiten von ConvNets mit großen Kernen hin, die im Vergleich zu Vision-Transformern eine schnellere Inferenzgeschwindigkeit aufweisen. Unsere Ergebnisse zeigen, dass ConvNets mit großen Kernen größere effektive rezeptive Felder und eine höhere Formbias besitzen, die sich von der Texturbias kleinerer Kernel-CNNs entfernen. Alle Codes und Modelle sind öffentlich unter https://github.com/AILab-CVC/UniRepLKNet verfügbar, um weitere Forschung und Entwicklung in der Gemeinschaft zu fördern.
English
This paper proposes the paradigm of large convolutional kernels in designing
modern Convolutional Neural Networks (ConvNets). We establish that employing a
few large kernels, instead of stacking multiple smaller ones, can be a superior
design strategy. Our work introduces a set of architecture design guidelines
for large-kernel ConvNets that optimize their efficiency and performance. We
propose the UniRepLKNet architecture, which offers systematical architecture
design principles specifically crafted for large-kernel ConvNets, emphasizing
their unique ability to capture extensive spatial information without deep
layer stacking. This results in a model that not only surpasses its
predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a
COCO box AP of 56.4% but also demonstrates impressive scalability and
performance on various modalities such as time-series forecasting, audio, point
cloud, and video recognition. These results indicate the universal modeling
abilities of large-kernel ConvNets with faster inference speed compared with
vision transformers. Our findings reveal that large-kernel ConvNets possess
larger effective receptive fields and a higher shape bias, moving away from the
texture bias typical of smaller-kernel CNNs. All codes and models are publicly
available at https://github.com/AILab-CVC/UniRepLKNet promoting further
research and development in the community.Summary
AI-Generated Summary