ChatPaper.aiChatPaper

Las redes convolucionales igualan a los transformadores de visión a gran escala.

ConvNets Match Vision Transformers at Scale

October 25, 2023
Autores: Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
cs.AI

Resumen

Muchos investigadores creen que las ConvNets funcionan bien en conjuntos de datos pequeños o de tamaño moderado, pero no son competitivas con los Vision Transformers cuando tienen acceso a conjuntos de datos a escala web. Desafiamos esta creencia evaluando una arquitectura de ConvNet de alto rendimiento preentrenada en JFT-4B, un gran conjunto de datos etiquetados de imágenes que se utiliza frecuentemente para entrenar modelos base. Consideramos presupuestos de cómputo para el preentrenamiento entre 0.4k y 110k horas de cómputo en núcleos TPU-v4, y entrenamos una serie de redes de profundidad y anchura crecientes de la familia de modelos NFNet. Observamos una ley de escalado logarítmico entre la pérdida en datos de validación y el presupuesto de cómputo. Después del ajuste fino en ImageNet, los NFNets igualan el rendimiento reportado de los Vision Transformers con presupuestos de cómputo comparables. Nuestro modelo más fuerte después del ajuste fino alcanza una precisión Top-1 del 90.4%.
English
Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.
PDF211December 15, 2024