ConvNets Igualam Vision Transformers em Escala

Resumo

Muitos pesquisadores acreditam que as ConvNets têm bom desempenho em conjuntos de dados pequenos ou moderadamente grandes, mas não são competitivas com os Vision Transformers quando têm acesso a conjuntos de dados em escala da web. Desafiamos essa crença avaliando uma arquitetura de ConvNet de alto desempenho pré-treinada no JFT-4B, um grande conjunto de dados de imagens rotuladas frequentemente usado para treinar modelos de base. Consideramos orçamentos de computação de pré-treinamento entre 0,4k e 110k horas de computação em núcleos TPU-v4 e treinamos uma série de redes com profundidade e largura crescentes da família de modelos NFNet. Observamos uma lei de escala log-log entre a perda em dados retidos e o orçamento de computação. Após o ajuste fino no ImageNet, as NFNets igualam o desempenho relatado dos Vision Transformers com orçamentos de computação comparáveis. Nosso modelo mais forte após ajuste fino alcança uma precisão Top-1 de 90,4%.

English

Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.

ConvNets Igualam Vision Transformers em Escala

ConvNets Match Vision Transformers at Scale

Resumo

Support