CLIPA-v2: Escalonando o Treinamento do CLIP com 81,1% de Acurácia Zero-shot no ImageNet Dentro de um Orçamento de \$10,000; Um Adicional de \$4,000 Desbloqueia 81,8% de Acurácia
CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy
June 27, 2023
Autores: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Resumo
O trabalho recente CLIPA apresenta uma lei de escala inversa para o treinamento do CLIP --
onde quanto maiores os codificadores de imagem/texto utilizados, menor o comprimento
da sequência de tokens de imagem/texto que pode ser aplicado no treinamento. Essa descoberta
nos permite treinar modelos CLIP de alto desempenho com uma redução significativa
de computação. Com base nesse trabalho, apresentamos aqui o CLIPA-v2 com duas contribuições
principais. Tecnicamente, descobrimos que essa lei de escala inversa também é aplicável
na etapa de ajuste fino, permitindo uma redução adicional nas necessidades computacionais.
Empiricamente, exploramos o CLIPA em escala, estendendo os experimentos até o modelo
H/14 com ~13 bilhões de pares imagem-texto vistos durante o treinamento.
Nossos resultados são empolgantes -- ao alocar um orçamento de apenas \10.000, nosso modelo
CLIP alcança uma impressionante precisão zero-shot no ImageNet de 81,1%, superando
o melhor modelo CLIP anterior (do OpenCLIP, 80,1%) em 1,0% e, ao mesmo tempo, reduzindo
o custo computacional em ~39 vezes. Além disso, com um investimento adicional de
4.000, podemos elevar ainda mais a precisão zero-shot no ImageNet para 81,8%. Nosso
código e modelos estão disponíveis em https://github.com/UCSC-VLAA/CLIPA.
English
The recent work CLIPA presents an inverse scaling law for CLIP training --
whereby the larger the image/text encoders used, the shorter the sequence
length of image/text tokens that can be applied in training. This finding
enables us to train high-performance CLIP models with significantly reduced
computations. Building upon this work, we hereby present CLIPA-v2 with two key
contributions. Technically, we find this inverse scaling law is also applicable
in the finetuning stage, enabling further reduction in computational needs.
Empirically, we explore CLIPA at scale, extending the experiments up to the
H/14 model with ~13B image-text pairs seen during training.
Our results are exciting -- by only allocating a budget of \10,000, our CLIP
model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing
the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing
the computational cost by ~39X. Moreover, with an additional investment of
4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our
code and models are available at https://github.com/UCSC-VLAA/CLIPA.