ConvNets erreichen die Leistung von Vision Transformern bei großem Maßstab.
ConvNets Match Vision Transformers at Scale
October 25, 2023
Autoren: Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
cs.AI
Zusammenfassung
Viele Forscher sind der Ansicht, dass Convolutional Neural Networks (ConvNets) auf kleinen oder mittelgroßen Datensätzen gut abschneiden, jedoch nicht mit Vision Transformers konkurrieren können, wenn sie Zugang zu web-skaligen Datensätzen haben. Wir stellen diese Annahme in Frage, indem wir eine leistungsstarke ConvNet-Architektur evaluieren, die auf JFT-4B vortrainiert wurde – einem großen, beschrifteten Bilddatensatz, der häufig für das Training von Foundation-Modellen verwendet wird. Wir betrachten Vortrainings-Rechenbudgets zwischen 0,4k und 110k TPU-v4-Kern-Rechenstunden und trainieren eine Reihe von Netzwerken mit zunehmender Tiefe und Breite aus der NFNet-Modellfamilie. Wir beobachten ein log-log-Skalierungsgesetz zwischen der Validierungsverlustfunktion und dem Rechenbudget. Nach dem Fine-Tuning auf ImageNet erreichen NFNets die berichtete Leistung von Vision Transformers mit vergleichbaren Rechenbudgets. Unser stärkstes feinabgestimmtes Modell erzielt eine Top-1-Genauigkeit von 90,4 %.
English
Many researchers believe that ConvNets perform well on small or moderately
sized datasets, but are not competitive with Vision Transformers when given
access to datasets on the web-scale. We challenge this belief by evaluating a
performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset
of images often used for training foundation models. We consider pre-training
compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a
series of networks of increasing depth and width from the NFNet model family.
We observe a log-log scaling law between held out loss and compute budget.
After fine-tuning on ImageNet, NFNets match the reported performance of Vision
Transformers with comparable compute budgets. Our strongest fine-tuned model
achieves a Top-1 accuracy of 90.4%.