Una Ley de Escalado Inverso para el Entrenamiento de CLIP
An Inverse Scaling Law for CLIP Training
May 11, 2023
Autores: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Resumen
CLIP, el primer modelo fundacional que conecta imágenes y texto, ha permitido muchos avances recientes en visión por computadora. Sin embargo, su costo de entrenamiento asociado es prohibitivamente alto, lo que impone una barrera significativa para su exploración generalizada. En este artículo, presentamos un hallazgo sorprendente: existe una ley de escala inversa para el entrenamiento de CLIP, donde cuanto más grandes son los codificadores de imagen/texto utilizados, menor es la longitud de secuencia de los tokens de imagen/texto que se pueden aplicar durante el entrenamiento. Además, demostramos que la estrategia para reducir la longitud de los tokens de imagen/texto juega un papel crucial en la calidad de esta ley de escala.
Como resultado de este hallazgo, hemos logrado entrenar CLIP con éxito incluso utilizando recursos académicos. Por ejemplo, en un servidor con ocho GPUs A100, nuestros modelos CLIP alcanzan precisiones top-1 en ImageNet de 63.2% en ~2 días, 67.8% en ~3 días y 69.3% en ~4 días. Al reducir la barrera computacional asociada con CLIP, esperamos inspirar más investigación en este campo, particularmente desde el ámbito académico. Nuestro código está disponible en https://github.com/UCSC-VLAA/CLIPA.
English
CLIP, the first foundation model that connects images and text, has enabled
many recent breakthroughs in computer vision. However, its associated training
cost is prohibitively high, imposing a significant barrier to its widespread
exploration. In this paper, we present a surprising finding that there exists
an inverse scaling law for CLIP training, whereby the larger the image/text
encoders used, the shorter the sequence length of image/text tokens that can be
applied in training. Moreover, we showcase that the strategy for reducing
image/text token length plays a crucial role in determining the quality of this
scaling law.
As a result of this finding, we are able to successfully train CLIP even by
using academic resources. For example, on an A100 eight-GPU server, our CLIP
models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8%
in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier
associated with CLIP, we hope to inspire more research in this field,
particularly from academics. Our code is available at
https://github.com/UCSC-VLAA/CLIPA.