ChatPaper.aiChatPaper

CLIPA-v2 : Mise à l'échelle de l'entraînement de CLIP avec une précision Zero-shot de 81,1 % sur ImageNet dans un budget de \10,000 ; 4,000 supplémentaires permettent d'atteindre 81,8 % de précision

CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy

June 27, 2023
Auteurs: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI

Résumé

Le travail récent CLIPA présente une loi d'échelle inverse pour l'entraînement de CLIP -- selon laquelle plus les encodeurs d'images/texte utilisés sont grands, plus la longueur des séquences de tokens d'images/texte pouvant être appliquées lors de l'entraînement est courte. Cette découverte nous permet d'entraîner des modèles CLIP à haute performance avec des calculs significativement réduits. En nous appuyant sur ce travail, nous présentons ici CLIPA-v2 avec deux contributions clés. Sur le plan technique, nous constatons que cette loi d'échelle inverse est également applicable lors de l'étape de fine-tuning, permettant une réduction supplémentaire des besoins en calcul. Sur le plan empirique, nous explorons CLIPA à grande échelle, étendant les expériences jusqu'au modèle H/14 avec environ 13 milliards de paires image-texte vues pendant l'entraînement. Nos résultats sont prometteurs -- en allouant seulement un budget de 10 000, notre modèle CLIP atteint une précision impressionnante de 81,1% en classification zero-shot sur ImageNet, surpassant le meilleur modèle CLIP précédent (d'OpenCLIP, 80,1%) de 1,0% tout en réduisant le coût de calcul d'environ 39 fois. De plus, avec un investissement supplémentaire de 4 000, nous pouvons encore augmenter la précision zero-shot sur ImageNet à 81,8%. Notre code et nos modèles sont disponibles à l'adresse https://github.com/UCSC-VLAA/CLIPA.
English
The recent work CLIPA presents an inverse scaling law for CLIP training -- whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. This finding enables us to train high-performance CLIP models with significantly reduced computations. Building upon this work, we hereby present CLIPA-v2 with two key contributions. Technically, we find this inverse scaling law is also applicable in the finetuning stage, enabling further reduction in computational needs. Empirically, we explore CLIPA at scale, extending the experiments up to the H/14 model with ~13B image-text pairs seen during training. Our results are exciting -- by only allocating a budget of \10,000, our CLIP model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing the computational cost by ~39X. Moreover, with an additional investment of 4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our code and models are available at https://github.com/UCSC-VLAA/CLIPA.
PDF121December 15, 2024