ConvNets evenaren Vision Transformers op grote schaal
ConvNets Match Vision Transformers at Scale
October 25, 2023
Auteurs: Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
cs.AI
Samenvatting
Veel onderzoekers zijn van mening dat ConvNets goed presteren op kleine of middelgrote datasets, maar niet kunnen concurreren met Vision Transformers wanneer ze toegang hebben tot datasets op web-schaal. We dagen deze overtuiging uit door een performante ConvNet-architectuur te evalueren die vooraf is getraind op JFT-4B, een grote gelabelde dataset van afbeeldingen die vaak wordt gebruikt voor het trainen van foundation-modellen. We beschouwen rekenbudgetten voor voorafgaande training tussen 0,4k en 110k TPU-v4 core-rekenuren, en trainen een reeks netwerken met toenemende diepte en breedte uit de NFNet-model familie. We observeren een log-log schaalwet tussen de uitgesloten verliesfunctie en het rekenbudget. Na fine-tuning op ImageNet, evenaren NFNets de gerapporteerde prestaties van Vision Transformers met vergelijkbare rekenbudgetten. Ons sterkste fine-tuned model behaalt een Top-1 nauwkeurigheid van 90,4%.
English
Many researchers believe that ConvNets perform well on small or moderately
sized datasets, but are not competitive with Vision Transformers when given
access to datasets on the web-scale. We challenge this belief by evaluating a
performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset
of images often used for training foundation models. We consider pre-training
compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a
series of networks of increasing depth and width from the NFNet model family.
We observe a log-log scaling law between held out loss and compute budget.
After fine-tuning on ImageNet, NFNets match the reported performance of Vision
Transformers with comparable compute budgets. Our strongest fine-tuned model
achieves a Top-1 accuracy of 90.4%.