CLIPA-v2: Масштабирование обучения CLIP с точностью 81,1% на ImageNet в режиме zero-shot при бюджете в \$10,000; Дополнительные \$4,000 повышают точность до 81,8%
CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy
June 27, 2023
Авторы: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Аннотация
Недавняя работа CLIPA представляет обратный закон масштабирования для обучения CLIP — чем больше используются кодировщики изображений и текста, тем короче может быть длина последовательности токенов изображений и текста, применяемых при обучении. Это открытие позволяет нам обучать высокопроизводительные модели CLIP с существенно сокращенными вычислительными затратами. Основываясь на этой работе, мы представляем CLIPA-v2 с двумя ключевыми вкладами. Технически мы обнаруживаем, что этот обратный закон масштабирования также применим на этапе тонкой настройки, что позволяет дополнительно снизить вычислительные потребности. Эмпирически мы исследуем CLIPA в крупном масштабе, расширяя эксперименты до модели H/14 с использованием ~13 миллиардов пар изображений и текстов, обработанных в ходе обучения.
Наши результаты впечатляют — при выделении бюджета всего в \10,000 наша модель CLIP достигает впечатляющей точности 81,1% в задаче zero-shot на ImageNet, превосходя предыдущую лучшую модель CLIP (от OpenCLIP, 80,1%) на 1,0%, одновременно сокращая вычислительные затраты примерно в 39 раз. Более того, при дополнительных инвестициях в размере 4,000 мы можем повысить точность zero-shot на ImageNet до 81,8%. Наш код и модели доступны по адресу https://github.com/UCSC-VLAA/CLIPA.
English
The recent work CLIPA presents an inverse scaling law for CLIP training --
whereby the larger the image/text encoders used, the shorter the sequence
length of image/text tokens that can be applied in training. This finding
enables us to train high-performance CLIP models with significantly reduced
computations. Building upon this work, we hereby present CLIPA-v2 with two key
contributions. Technically, we find this inverse scaling law is also applicable
in the finetuning stage, enabling further reduction in computational needs.
Empirically, we explore CLIPA at scale, extending the experiments up to the
H/14 model with ~13B image-text pairs seen during training.
Our results are exciting -- by only allocating a budget of \10,000, our CLIP
model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing
the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing
the computational cost by ~39X. Moreover, with an additional investment of
4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our
code and models are available at https://github.com/UCSC-VLAA/CLIPA.