CLIPA-v2: Scalabilità dell'Addestramento di CLIP con un'Accuratezza Zero-shot su ImageNet del 81,1% con un Budget di \10.000; Ulteriori 4.000 Sbloccano un'Accuratezza del 81,8%

Abstract

Il recente lavoro CLIPA presenta una legge di scala inversa per l'addestramento di CLIP -- per cui più grandi sono gli encoder di immagini/testo utilizzati, più breve può essere la lunghezza della sequenza di token di immagini/testo applicata durante l'addestramento. Questa scoperta ci consente di addestrare modelli CLIP ad alte prestazioni con un significativo ridimensionamento dei calcoli. Basandoci su questo lavoro, presentiamo qui CLIPA-v2 con due contributi chiave. Tecnicamente, scopriamo che questa legge di scala inversa è applicabile anche nella fase di fine-tuning, consentendo un'ulteriore riduzione delle esigenze computazionali. Empiricamente, esploriamo CLIPA su larga scala, estendendo gli esperimenti fino al modello H/14 con circa 13 miliardi di coppie immagine-testo viste durante l'addestramento. I nostri risultati sono entusiasmanti -- allocando un budget di soli \10.000, il nostro modello CLIP raggiunge un'impressionante accuratezza zero-shot su ImageNet dell'81,1%, superando il precedente miglior modello CLIP (da OpenCLIP, 80,1%) dell'1,0% e riducendo contemporaneamente il costo computazionale di circa 39 volte. Inoltre, con un investimento aggiuntivo di 4.000, possiamo ulteriormente elevare l'accuratezza zero-shot su ImageNet all'81,8%. Il nostro codice e i nostri modelli sono disponibili su https://github.com/UCSC-VLAA/CLIPA.

English

The recent work CLIPA presents an inverse scaling law for CLIP training -- whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. This finding enables us to train high-performance CLIP models with significantly reduced computations. Building upon this work, we hereby present CLIPA-v2 with two key contributions. Technically, we find this inverse scaling law is also applicable in the finetuning stage, enabling further reduction in computational needs. Empirically, we explore CLIPA at scale, extending the experiments up to the H/14 model with ~13B image-text pairs seen during training. Our results are exciting -- by only allocating a budget of \10,000, our CLIP model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing the computational cost by ~39X. Moreover, with an additional investment of 4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our code and models are available at https://github.com/UCSC-VLAA/CLIPA.

CLIPA-v2: Scalabilità dell'Addestramento di CLIP con un'Accuratezza Zero-shot su ImageNet del 81,1% con un Budget di \10.000; Ulteriori 4.000 Sbloccano un'Accuratezza del 81,8%

CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy

Abstract

Support