ChatPaper.aiChatPaper

Les réseaux convolutifs rivalisent avec les transformeurs visuels à grande échelle

ConvNets Match Vision Transformers at Scale

October 25, 2023
Auteurs: Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
cs.AI

Résumé

De nombreux chercheurs pensent que les réseaux convolutifs (ConvNets) obtiennent de bons résultats sur des ensembles de données de petite ou moyenne taille, mais ne sont pas compétitifs par rapport aux Vision Transformers lorsqu'ils ont accès à des ensembles de données à l'échelle du web. Nous remettons en question cette croyance en évaluant une architecture ConvNet performante pré-entraînée sur JFT-4B, un vaste ensemble de données d'images étiquetées souvent utilisé pour l'entraînement de modèles de base. Nous considérons des budgets de calcul pour le pré-entraînement allant de 0,4k à 110k heures de calcul sur des cœurs TPU-v4, et entraînons une série de réseaux de profondeur et de largeur croissantes issus de la famille de modèles NFNet. Nous observons une loi d'échelle log-log entre la perte sur l'ensemble de validation et le budget de calcul. Après un ajustement fin sur ImageNet, les NFNets égalent les performances rapportées des Vision Transformers avec des budgets de calcul comparables. Notre modèle le plus performant après ajustement fin atteint une précision Top-1 de 90,4 %.
English
Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.
PDF211December 15, 2024