CLIPA-v2: Skalierung des CLIP-Trainings mit 81,1 % Zero-Shot ImageNet-Genauigkeit innerhalb eines Budgets von \10.000; zusätzliche 4.000 ermöglichen 81,8 % Genauigkeit

papers.abstract

Die aktuelle Arbeit CLIPA präsentiert ein inverses Skalierungsgesetz für das CLIP-Training – wonach größere Bild-/Text-Encoder kürzere Sequenzlängen von Bild-/Text-Token im Training ermöglichen. Diese Erkenntnis erlaubt es uns, hochleistungsfähige CLIP-Modelle mit deutlich reduziertem Rechenaufwand zu trainieren. Aufbauend auf dieser Arbeit präsentieren wir hier CLIPA-v2 mit zwei wesentlichen Beiträgen. Technisch gesehen stellen wir fest, dass dieses inverse Skalierungsgesetz auch im Feinabstimmungsstadium anwendbar ist, was eine weitere Reduzierung des Rechenbedarfs ermöglicht. Empirisch untersuchen wir CLIPA in großem Maßstab und erweitern die Experimente bis zum H/14-Modell mit ~13 Milliarden während des Trainings verarbeiteten Bild-Text-Paaren. Unsere Ergebnisse sind vielversprechend – mit einem Budget von nur 10.000 erreicht unser CLIP-Modell eine beeindruckende Zero-Shot-Genauigkeit auf ImageNet von 81,1 %, was das bisher beste CLIP-Modell (von OpenCLIP, 80,1 %) um 1,0 % übertrifft und gleichzeitig die Rechenkosten um ~39X reduziert. Darüber hinaus können wir mit einer zusätzlichen Investition von 4.000 die Zero-Shot-Genauigkeit auf ImageNet auf 81,8 % steigern. Unser Code und unsere Modelle sind unter https://github.com/UCSC-VLAA/CLIPA verfügbar.

English

The recent work CLIPA presents an inverse scaling law for CLIP training -- whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. This finding enables us to train high-performance CLIP models with significantly reduced computations. Building upon this work, we hereby present CLIPA-v2 with two key contributions. Technically, we find this inverse scaling law is also applicable in the finetuning stage, enabling further reduction in computational needs. Empirically, we explore CLIPA at scale, extending the experiments up to the H/14 model with ~13B image-text pairs seen during training. Our results are exciting -- by only allocating a budget of \10,000, our CLIP model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing the computational cost by ~39X. Moreover, with an additional investment of 4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our code and models are available at https://github.com/UCSC-VLAA/CLIPA.

CLIPA-v2: Skalierung des CLIP-Trainings mit 81,1 % Zero-Shot ImageNet-Genauigkeit innerhalb eines Budgets von \10.000; zusätzliche 4.000 ermöglichen 81,8 % Genauigkeit

CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy

papers.abstract

Support