CLIPA-v2: 1万ドル予算内で81.1%のゼロショットImageNet精度を達成するCLIPトレーニングのスケーリング; 追加4,000ドルで81.8%精度を実現
CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy
June 27, 2023
著者: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
要旨
最近の研究であるCLIPAは、CLIPトレーニングにおける逆スケーリング則を提示しています。これは、使用する画像/テキストエンコーダが大きくなるほど、トレーニングに適用できる画像/テキストトークンのシーケンス長が短くなるというものです。この発見により、大幅に計算量を削減しながら高性能なCLIPモデルをトレーニングすることが可能になりました。この研究を基盤として、私たちはCLIPA-v2を発表し、2つの主要な貢献を果たします。技術的には、この逆スケーリング則がファインチューニング段階でも適用可能であり、さらに計算量を削減できることを発見しました。実験的には、CLIPAを大規模に探索し、トレーニング中に約130億の画像-テキストペアを見たH/14モデルまで実験を拡張しました。
私たちの結果は非常に興味深いものです。わずか10,000の予算を割り当てるだけで、私たちのCLIPモデルは81.1%という印象的なゼロショットImageNet精度を達成し、以前の最高のCLIPモデル(OpenCLIPの80.1%)を1.0%上回り、同時に計算コストを約39倍削減しました。さらに、4,000の追加投資を行うことで、ゼロショットImageNet精度を81.8%までさらに向上させることができます。私たちのコードとモデルはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。
English
The recent work CLIPA presents an inverse scaling law for CLIP training --
whereby the larger the image/text encoders used, the shorter the sequence
length of image/text tokens that can be applied in training. This finding
enables us to train high-performance CLIP models with significantly reduced
computations. Building upon this work, we hereby present CLIPA-v2 with two key
contributions. Technically, we find this inverse scaling law is also applicable
in the finetuning stage, enabling further reduction in computational needs.
Empirically, we explore CLIPA at scale, extending the experiments up to the
H/14 model with ~13B image-text pairs seen during training.
Our results are exciting -- by only allocating a budget of \10,000, our CLIP
model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing
the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing
the computational cost by ~39X. Moreover, with an additional investment of
4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our
code and models are available at https://github.com/UCSC-VLAA/CLIPA.