ChatPaper.aiChatPaper

ConvNets는 대규모 데이터에서 Vision Transformers와 성능이 동등하다

ConvNets Match Vision Transformers at Scale

October 25, 2023
저자: Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
cs.AI

초록

많은 연구자들은 ConvNet이 작거나 중간 규모의 데이터셋에서는 잘 작동하지만, 웹 규모의 데이터셋에 접근할 때는 Vision Transformer와 경쟁력이 없다고 믿고 있습니다. 우리는 이 믿음에 도전하기 위해 JFT-4B라는 대규모 라벨링된 이미지 데이터셋에서 사전 학습된 고성능 ConvNet 아키텍처를 평가합니다. JFT-4B는 파운데이션 모델 학습에 자주 사용되는 데이터셋입니다. 우리는 0.4k에서 110k TPU-v4 코어 컴퓨팅 시간 사이의 사전 학습 컴퓨팅 예산을 고려하고, NFNet 모델 패밀리에서 깊이와 너비를 점점 증가시키는 일련의 네트워크를 학습시킵니다. 우리는 보류된 손실과 컴퓨팅 예산 사이의 로그-로그 스케일링 법칙을 관찰합니다. ImageNet에서 미세 조정을 거친 후, NFNet은 비슷한 컴퓨팅 예산을 가진 Vision Transformer의 보고된 성능과 일치합니다. 우리의 가장 강력한 미세 조정 모델은 Top-1 정확도 90.4%를 달성합니다.
English
Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.
PDF211December 15, 2024