CLIPA-v2: Schaalvergroting van CLIP-training met 81,1% zero-shot ImageNet-nauwkeurigheid binnen een budget van \10.000; Extra 4.000 ontgrendelt 81,8% nauwkeurigheid

Samenvatting

Het recente werk CLIPA presenteert een inverse schaalwet voor CLIP-training -- waarbij hoe groter de beeld-/tekstencoders zijn die worden gebruikt, hoe korter de sequentielengte van beeld-/teksttokens die kunnen worden toegepast in de training. Deze bevinding stelt ons in staat om hoogwaardige CLIP-modellen te trainen met aanzienlijk verminderde berekeningen. Voortbouwend op dit werk presenteren wij hierbij CLIPA-v2 met twee belangrijke bijdragen. Technisch gezien ontdekken we dat deze inverse schaalwet ook van toepassing is in de finetuning-fase, wat een verdere vermindering van de rekenbehoefte mogelijk maakt. Empirisch verkennen we CLIPA op grote schaal, waarbij we de experimenten uitbreiden tot het H/14-model met ~13B beeld-tekstparen die tijdens de training zijn gezien. Onze resultaten zijn opwindend -- door slechts een budget van \10.000 toe te wijzen, behaalt ons CLIP- model een indrukwekkende zero-shot ImageNet-nauwkeurigheid van 81,1%, waarmee het het vorige beste CLIP-model (van OpenCLIP, 80,1%) met 1,0% overtreft en tegelijkertijd de rekenkosten met ~39X vermindert. Bovendien kunnen we met een extra investering van 4.000 de zero-shot ImageNet-nauwkeurigheid verder verhogen tot 81,8%. Onze code en modellen zijn beschikbaar op https://github.com/UCSC-VLAA/CLIPA.

English

The recent work CLIPA presents an inverse scaling law for CLIP training -- whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. This finding enables us to train high-performance CLIP models with significantly reduced computations. Building upon this work, we hereby present CLIPA-v2 with two key contributions. Technically, we find this inverse scaling law is also applicable in the finetuning stage, enabling further reduction in computational needs. Empirically, we explore CLIPA at scale, extending the experiments up to the H/14 model with ~13B image-text pairs seen during training. Our results are exciting -- by only allocating a budget of \10,000, our CLIP model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing the computational cost by ~39X. Moreover, with an additional investment of 4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our code and models are available at https://github.com/UCSC-VLAA/CLIPA.

CLIPA-v2: Schaalvergroting van CLIP-training met 81,1% zero-shot ImageNet-nauwkeurigheid binnen een budget van \10.000; Extra 4.000 ontgrendelt 81,8% nauwkeurigheid

CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy

Samenvatting

Support