ConvNets Igualam Vision Transformers em Escala
ConvNets Match Vision Transformers at Scale
October 25, 2023
Autores: Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
cs.AI
Resumo
Muitos pesquisadores acreditam que as ConvNets têm bom desempenho em conjuntos de dados pequenos ou moderadamente grandes, mas não são competitivas com os Vision Transformers quando têm acesso a conjuntos de dados em escala da web. Desafiamos essa crença avaliando uma arquitetura de ConvNet de alto desempenho pré-treinada no JFT-4B, um grande conjunto de dados de imagens rotuladas frequentemente usado para treinar modelos de base. Consideramos orçamentos de computação de pré-treinamento entre 0,4k e 110k horas de computação em núcleos TPU-v4 e treinamos uma série de redes com profundidade e largura crescentes da família de modelos NFNet. Observamos uma lei de escala log-log entre a perda em dados retidos e o orçamento de computação. Após o ajuste fino no ImageNet, as NFNets igualam o desempenho relatado dos Vision Transformers com orçamentos de computação comparáveis. Nosso modelo mais forte após ajuste fino alcança uma precisão Top-1 de 90,4%.
English
Many researchers believe that ConvNets perform well on small or moderately
sized datasets, but are not competitive with Vision Transformers when given
access to datasets on the web-scale. We challenge this belief by evaluating a
performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset
of images often used for training foundation models. We consider pre-training
compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a
series of networks of increasing depth and width from the NFNet model family.
We observe a log-log scaling law between held out loss and compute budget.
After fine-tuning on ImageNet, NFNets match the reported performance of Vision
Transformers with comparable compute budgets. Our strongest fine-tuned model
achieves a Top-1 accuracy of 90.4%.