Обратный закон масштабирования для обучения CLIP

Аннотация

CLIP, первая фундаментальная модель, связывающая изображения и текст, стала основой для многих недавних прорывов в области компьютерного зрения. Однако связанные с её обучением затраты чрезвычайно высоки, что создаёт значительные препятствия для её широкого изучения. В данной статье мы представляем неожиданное открытие: для обучения CLIP существует обратный закон масштабирования, согласно которому чем больше размеры кодировщиков изображений и текста, тем короче может быть длина последовательностей токенов изображений и текста, используемых при обучении. Более того, мы демонстрируем, что стратегия сокращения длины токенов изображений и текста играет ключевую роль в определении качества этого закона масштабирования. В результате этого открытия мы смогли успешно обучить CLIP даже с использованием академических ресурсов. Например, на сервере с восемью GPU A100 наши модели CLIP достигают точности zero-shot top-1 на ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня. Снижая вычислительные барьеры, связанные с CLIP, мы надеемся вдохновить больше исследований в этой области, особенно со стороны академического сообщества. Наш код доступен по адресу https://github.com/UCSC-VLAA/CLIPA.

English

CLIP, the first foundation model that connects images and text, has enabled many recent breakthroughs in computer vision. However, its associated training cost is prohibitively high, imposing a significant barrier to its widespread exploration. In this paper, we present a surprising finding that there exists an inverse scaling law for CLIP training, whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. Moreover, we showcase that the strategy for reducing image/text token length plays a crucial role in determining the quality of this scaling law. As a result of this finding, we are able to successfully train CLIP even by using academic resources. For example, on an A100 eight-GPU server, our CLIP models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8% in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier associated with CLIP, we hope to inspire more research in this field, particularly from academics. Our code is available at https://github.com/UCSC-VLAA/CLIPA.

Обратный закон масштабирования для обучения CLIP

An Inverse Scaling Law for CLIP Training

Аннотация

Support