Ein inverses Skalierungsgesetz für das CLIP-Training
An Inverse Scaling Law for CLIP Training
May 11, 2023
Autoren: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Zusammenfassung
CLIP, das erste Fundamentmodell, das Bilder und Text verbindet, hat viele
jüngste Durchbrüche in der Computer Vision ermöglicht. Die damit verbundenen
Trainingskosten sind jedoch prohibitiv hoch, was eine erhebliche Barriere für
die breite Erforschung darstellt. In diesem Artikel präsentieren wir eine
überraschende Erkenntnis, dass ein umgekehrtes Skalierungsgesetz für das CLIP-
Training existiert, bei dem größere Bild-/Text-Encoder kürzere Sequenzlängen
von Bild-/Text-Token im Training ermöglichen. Darüber hinaus zeigen wir, dass
die Strategie zur Reduzierung der Bild-/Text-Token-Länge eine entscheidende
Rolle für die Qualität dieses Skalierungsgesetzes spielt.
Als Ergebnis dieser Erkenntnis können wir CLIP erfolgreich sogar mit
akademischen Ressourcen trainieren. Zum Beispiel erreichen unsere CLIP-Modelle
auf einem A100-Acht-GPU-Server Zero-Shot Top-1 ImageNet-Genauigkeiten von 63,2 %
in ~2 Tagen, 67,8 % in ~3 Tagen und 69,3 % in ~4 Tagen. Durch die Reduzierung
der mit CLIP verbundenen Rechenbarriere hoffen wir, mehr Forschung in diesem
Bereich zu inspirieren, insbesondere von Akademikern. Unser Code ist verfügbar
unter https://github.com/UCSC-VLAA/CLIPA.
English
CLIP, the first foundation model that connects images and text, has enabled
many recent breakthroughs in computer vision. However, its associated training
cost is prohibitively high, imposing a significant barrier to its widespread
exploration. In this paper, we present a surprising finding that there exists
an inverse scaling law for CLIP training, whereby the larger the image/text
encoders used, the shorter the sequence length of image/text tokens that can be
applied in training. Moreover, we showcase that the strategy for reducing
image/text token length plays a crucial role in determining the quality of this
scaling law.
As a result of this finding, we are able to successfully train CLIP even by
using academic resources. For example, on an A100 eight-GPU server, our CLIP
models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8%
in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier
associated with CLIP, we hope to inspire more research in this field,
particularly from academics. Our code is available at
https://github.com/UCSC-VLAA/CLIPA.