Обратный закон масштабирования для обучения CLIP
An Inverse Scaling Law for CLIP Training
May 11, 2023
Авторы: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Аннотация
CLIP, первая фундаментальная модель, связывающая изображения и текст, стала основой для многих недавних прорывов в области компьютерного зрения. Однако связанные с её обучением затраты чрезвычайно высоки, что создаёт значительные препятствия для её широкого изучения. В данной статье мы представляем неожиданное открытие: для обучения CLIP существует обратный закон масштабирования, согласно которому чем больше размеры кодировщиков изображений и текста, тем короче может быть длина последовательностей токенов изображений и текста, используемых при обучении. Более того, мы демонстрируем, что стратегия сокращения длины токенов изображений и текста играет ключевую роль в определении качества этого закона масштабирования.
В результате этого открытия мы смогли успешно обучить CLIP даже с использованием академических ресурсов. Например, на сервере с восемью GPU A100 наши модели CLIP достигают точности zero-shot top-1 на ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня. Снижая вычислительные барьеры, связанные с CLIP, мы надеемся вдохновить больше исследований в этой области, особенно со стороны академического сообщества. Наш код доступен по адресу https://github.com/UCSC-VLAA/CLIPA.
English
CLIP, the first foundation model that connects images and text, has enabled
many recent breakthroughs in computer vision. However, its associated training
cost is prohibitively high, imposing a significant barrier to its widespread
exploration. In this paper, we present a surprising finding that there exists
an inverse scaling law for CLIP training, whereby the larger the image/text
encoders used, the shorter the sequence length of image/text tokens that can be
applied in training. Moreover, we showcase that the strategy for reducing
image/text token length plays a crucial role in determining the quality of this
scaling law.
As a result of this finding, we are able to successfully train CLIP even by
using academic resources. For example, on an A100 eight-GPU server, our CLIP
models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8%
in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier
associated with CLIP, we hope to inspire more research in this field,
particularly from academics. Our code is available at
https://github.com/UCSC-VLAA/CLIPA.