CLIPA-v2: Schaalvergroting van CLIP-training met 81,1% zero-shot ImageNet-nauwkeurigheid binnen een budget van \10.000; Extra 4.000 ontgrendelt 81,8% nauwkeurigheid
CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy
June 27, 2023
Auteurs: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Samenvatting
Het recente werk CLIPA presenteert een inverse schaalwet voor CLIP-training --
waarbij hoe groter de beeld-/tekstencoders zijn die worden gebruikt, hoe korter
de sequentielengte van beeld-/teksttokens die kunnen worden toegepast in de training. Deze bevinding
stelt ons in staat om hoogwaardige CLIP-modellen te trainen met aanzienlijk verminderde
berekeningen. Voortbouwend op dit werk presenteren wij hierbij CLIPA-v2 met twee belangrijke
bijdragen. Technisch gezien ontdekken we dat deze inverse schaalwet ook van toepassing is
in de finetuning-fase, wat een verdere vermindering van de rekenbehoefte mogelijk maakt.
Empirisch verkennen we CLIPA op grote schaal, waarbij we de experimenten uitbreiden tot het
H/14-model met ~13B beeld-tekstparen die tijdens de training zijn gezien.
Onze resultaten zijn opwindend -- door slechts een budget van \10.000 toe te wijzen, behaalt ons CLIP-
model een indrukwekkende zero-shot ImageNet-nauwkeurigheid van 81,1%, waarmee het
het vorige beste CLIP-model (van OpenCLIP, 80,1%) met 1,0% overtreft en tegelijkertijd
de rekenkosten met ~39X vermindert. Bovendien kunnen we met een extra investering van
4.000 de zero-shot ImageNet-nauwkeurigheid verder verhogen tot 81,8%. Onze
code en modellen zijn beschikbaar op https://github.com/UCSC-VLAA/CLIPA.
English
The recent work CLIPA presents an inverse scaling law for CLIP training --
whereby the larger the image/text encoders used, the shorter the sequence
length of image/text tokens that can be applied in training. This finding
enables us to train high-performance CLIP models with significantly reduced
computations. Building upon this work, we hereby present CLIPA-v2 with two key
contributions. Technically, we find this inverse scaling law is also applicable
in the finetuning stage, enabling further reduction in computational needs.
Empirically, we explore CLIPA at scale, extending the experiments up to the
H/14 model with ~13B image-text pairs seen during training.
Our results are exciting -- by only allocating a budget of \10,000, our CLIP
model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing
the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing
the computational cost by ~39X. Moreover, with an additional investment of
4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our
code and models are available at https://github.com/UCSC-VLAA/CLIPA.