Сверточные сети соответствуют трансформерам для обработки изображений на больших масштабах

Аннотация

Многие исследователи считают, что сверточные нейронные сети (ConvNets) хорошо справляются с небольшими или средними наборами данных, но не могут конкурировать с Vision Transformers при работе с веб-масштабными наборами данных. Мы оспариваем это утверждение, оценивая производительную архитектуру ConvNet, предварительно обученную на JFT-4B — крупном размеченном наборе изображений, часто используемом для обучения базовых моделей. Мы рассматриваем вычислительные бюджеты для предварительного обучения в диапазоне от 0,4k до 110k часов работы ядер TPU-v4 и обучаем серию сетей с увеличивающейся глубиной и шириной из семейства моделей NFNet. Мы наблюдаем логарифмический закон масштабирования между ошибкой на тестовых данных и вычислительным бюджетом. После тонкой настройки на ImageNet модели NFNet соответствуют заявленной производительности Vision Transformers при сопоставимых вычислительных бюджетах. Наша наиболее сильная тонко настроенная модель достигает точности Top-1 в 90,4%.

English

Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.

Сверточные сети соответствуют трансформерам для обработки изображений на больших масштабах

ConvNets Match Vision Transformers at Scale

Аннотация

Support