Een omgekeerde schaalwet voor CLIP-training
An Inverse Scaling Law for CLIP Training
May 11, 2023
Auteurs: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Samenvatting
CLIP, het eerste foundation-model dat afbeeldingen en tekst verbindt, heeft veel recente doorbraken in computervisie mogelijk gemaakt. De bijbehorende trainingskosten zijn echter extreem hoog, wat een aanzienlijke barrière vormt voor wijdverbreid onderzoek. In dit artikel presenteren we een verrassende bevinding: er bestaat een omgekeerde schaalwet voor CLIP-training, waarbij grotere beeld-/tekstencoders leiden tot kortere sequentielengtes van beeld-/teksttokens die tijdens de training kunnen worden gebruikt. Bovendien laten we zien dat de strategie voor het verkorten van de beeld-/teksttokenlengte een cruciale rol speelt bij het bepalen van de kwaliteit van deze schaalwet.
Als gevolg van deze bevinding zijn we in staat om CLIP succesvol te trainen, zelfs met academische middelen. Op een A100-server met acht GPU's behalen onze CLIP-modellen bijvoorbeeld zero-shot top-1 nauwkeurigheden van 63,2% in ~2 dagen, 67,8% in ~3 dagen en 69,3% in ~4 dagen op ImageNet. Door de rekenkundige barrière van CLIP te verlagen, hopen we meer onderzoek in dit veld te inspireren, met name vanuit academische hoek. Onze code is beschikbaar op https://github.com/UCSC-VLAA/CLIPA.
English
CLIP, the first foundation model that connects images and text, has enabled
many recent breakthroughs in computer vision. However, its associated training
cost is prohibitively high, imposing a significant barrier to its widespread
exploration. In this paper, we present a surprising finding that there exists
an inverse scaling law for CLIP training, whereby the larger the image/text
encoders used, the shorter the sequence length of image/text tokens that can be
applied in training. Moreover, we showcase that the strategy for reducing
image/text token length plays a crucial role in determining the quality of this
scaling law.
As a result of this finding, we are able to successfully train CLIP even by
using academic resources. For example, on an A100 eight-GPU server, our CLIP
models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8%
in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier
associated with CLIP, we hope to inspire more research in this field,
particularly from academics. Our code is available at
https://github.com/UCSC-VLAA/CLIPA.