Uma Lei de Escala Inversa para o Treinamento do CLIP
An Inverse Scaling Law for CLIP Training
May 11, 2023
Autores: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Resumo
O CLIP, o primeiro modelo de base que conecta imagens e texto, tem possibilitado muitos avanços recentes na visão computacional. No entanto, o custo associado ao seu treinamento é proibitivamente alto, impondo uma barreira significativa à sua exploração generalizada. Neste artigo, apresentamos uma descoberta surpreendente de que existe uma lei de escala inversa para o treinamento do CLIP, em que quanto maiores os codificadores de imagem/texto utilizados, menor o comprimento da sequência de tokens de imagem/texto que pode ser aplicado no treinamento. Além disso, demonstramos que a estratégia para reduzir o comprimento dos tokens de imagem/texto desempenha um papel crucial na determinação da qualidade dessa lei de escala.
Como resultado dessa descoberta, conseguimos treinar o CLIP com sucesso mesmo utilizando recursos acadêmicos. Por exemplo, em um servidor com oito GPUs A100, nossos modelos CLIP alcançam acurácias top-1 zero-shot no ImageNet de 63,2% em ~2 dias, 67,8% em ~3 dias e 69,3% em ~4 dias. Ao reduzir a barreira computacional associada ao CLIP, esperamos inspirar mais pesquisas nessa área, especialmente da comunidade acadêmica. Nosso código está disponível em https://github.com/UCSC-VLAA/CLIPA.
English
CLIP, the first foundation model that connects images and text, has enabled
many recent breakthroughs in computer vision. However, its associated training
cost is prohibitively high, imposing a significant barrier to its widespread
exploration. In this paper, we present a surprising finding that there exists
an inverse scaling law for CLIP training, whereby the larger the image/text
encoders used, the shorter the sequence length of image/text tokens that can be
applied in training. Moreover, we showcase that the strategy for reducing
image/text token length plays a crucial role in determining the quality of this
scaling law.
As a result of this finding, we are able to successfully train CLIP even by
using academic resources. For example, on an A100 eight-GPU server, our CLIP
models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8%
in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier
associated with CLIP, we hope to inspire more research in this field,
particularly from academics. Our code is available at
https://github.com/UCSC-VLAA/CLIPA.