Сверточные сети соответствуют трансформерам для обработки изображений на больших масштабах
ConvNets Match Vision Transformers at Scale
October 25, 2023
Авторы: Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
cs.AI
Аннотация
Многие исследователи считают, что сверточные нейронные сети (ConvNets) хорошо справляются с небольшими или средними наборами данных, но не могут конкурировать с Vision Transformers при работе с веб-масштабными наборами данных. Мы оспариваем это утверждение, оценивая производительную архитектуру ConvNet, предварительно обученную на JFT-4B — крупном размеченном наборе изображений, часто используемом для обучения базовых моделей. Мы рассматриваем вычислительные бюджеты для предварительного обучения в диапазоне от 0,4k до 110k часов работы ядер TPU-v4 и обучаем серию сетей с увеличивающейся глубиной и шириной из семейства моделей NFNet. Мы наблюдаем логарифмический закон масштабирования между ошибкой на тестовых данных и вычислительным бюджетом. После тонкой настройки на ImageNet модели NFNet соответствуют заявленной производительности Vision Transformers при сопоставимых вычислительных бюджетах. Наша наиболее сильная тонко настроенная модель достигает точности Top-1 в 90,4%.
English
Many researchers believe that ConvNets perform well on small or moderately
sized datasets, but are not competitive with Vision Transformers when given
access to datasets on the web-scale. We challenge this belief by evaluating a
performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset
of images often used for training foundation models. We consider pre-training
compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a
series of networks of increasing depth and width from the NFNet model family.
We observe a log-log scaling law between held out loss and compute budget.
After fine-tuning on ImageNet, NFNets match the reported performance of Vision
Transformers with comparable compute budgets. Our strongest fine-tuned model
achieves a Top-1 accuracy of 90.4%.