Une loi d'échelle inverse pour l'entraînement de CLIP
An Inverse Scaling Law for CLIP Training
May 11, 2023
Auteurs: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Résumé
CLIP, le premier modèle de base à connecter images et texte, a permis de nombreuses avancées récentes en vision par ordinateur. Cependant, son coût d'entraînement est prohibitivement élevé, constituant un obstacle majeur à son exploration généralisée. Dans cet article, nous présentons une découverte surprenante : il existe une loi d'échelle inverse pour l'entraînement de CLIP, selon laquelle plus les encodeurs d'images/texte utilisés sont grands, plus la longueur de séquence des tokens d'images/texte pouvant être appliquée lors de l'entraînement est courte. De plus, nous démontrons que la stratégie de réduction de la longueur des tokens d'images/texte joue un rôle crucial dans la qualité de cette loi d'échelle.
Grâce à cette découverte, nous avons pu entraîner CLIP avec succès en utilisant uniquement des ressources académiques. Par exemple, sur un serveur équipé de huit GPU A100, nos modèles CLIP atteignent des précisions top-1 ImageNet en zero-shot de 63,2 % en ~2 jours, 67,8 % en ~3 jours et 69,3 % en ~4 jours. En réduisant la barrière computationnelle associée à CLIP, nous espérons inspirer davantage de recherches dans ce domaine, en particulier de la part des universitaires. Notre code est disponible à l'adresse suivante : https://github.com/UCSC-VLAA/CLIPA.
English
CLIP, the first foundation model that connects images and text, has enabled
many recent breakthroughs in computer vision. However, its associated training
cost is prohibitively high, imposing a significant barrier to its widespread
exploration. In this paper, we present a surprising finding that there exists
an inverse scaling law for CLIP training, whereby the larger the image/text
encoders used, the shorter the sequence length of image/text tokens that can be
applied in training. Moreover, we showcase that the strategy for reducing
image/text token length plays a crucial role in determining the quality of this
scaling law.
As a result of this finding, we are able to successfully train CLIP even by
using academic resources. For example, on an A100 eight-GPU server, our CLIP
models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8%
in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier
associated with CLIP, we hope to inspire more research in this field,
particularly from academics. Our code is available at
https://github.com/UCSC-VLAA/CLIPA.