ChatPaper.aiChatPaper

Le Reti Convoluzionali eguagliano i Vision Transformer su larga scala

ConvNets Match Vision Transformers at Scale

October 25, 2023
Autori: Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
cs.AI

Abstract

Molti ricercatori ritengono che le reti convoluzionali (ConvNets) performino bene su dataset di piccole o medie dimensioni, ma non siano competitive rispetto ai Vision Transformer quando hanno accesso a dataset su scala web. Contestiamo questa convinzione valutando un'architettura ConvNet ad alte prestazioni pre-addestrata su JFT-4B, un ampio dataset etichettato di immagini spesso utilizzato per l'addestramento di modelli di base. Consideriamo budget computazionali di pre-addestramento compresi tra 0,4k e 110k ore di calcolo su core TPU-v4 e addestriamo una serie di reti di profondità e larghezza crescenti della famiglia di modelli NFNet. Osserviamo una legge di scala log-log tra la perdita su dati di validazione e il budget computazionale. Dopo il fine-tuning su ImageNet, le NFNet eguagliano le prestazioni riportate dai Vision Transformer con budget computazionali comparabili. Il nostro modello più performante dopo il fine-tuning raggiunge un'accuratezza Top-1 del 90,4%.
English
Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.
PDF211December 14, 2025