CLIPA-v2: Escalando el entrenamiento de CLIP con un 81,1% de precisión en ImageNet en modo zero-shot dentro de un presupuesto de \$10,000; Un adicional de \$4,000 desbloquea un 81,8% de precisión
CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy
June 27, 2023
Autores: Xianhang Li, Zeyu Wang, Cihang Xie
cs.AI
Resumen
El trabajo reciente CLIPA presenta una ley de escala inversa para el entrenamiento de CLIP, según la cual cuanto más grandes son los codificadores de imagen/texto utilizados, menor es la longitud de secuencia de tokens de imagen/texto que se puede aplicar en el entrenamiento. Este hallazgo nos permite entrenar modelos CLIP de alto rendimiento con un cálculo significativamente reducido. Basándonos en este trabajo, presentamos CLIPA-v2 con dos contribuciones clave. Técnicamente, encontramos que esta ley de escala inversa también es aplicable en la etapa de ajuste fino, permitiendo una mayor reducción en las necesidades computacionales. Empíricamente, exploramos CLIPA a gran escala, extendiendo los experimentos hasta el modelo H/14 con aproximadamente 13B pares de imagen-texto vistos durante el entrenamiento.
Nuestros resultados son emocionantes: al asignar un presupuesto de solo \$10,000, nuestro modelo CLIP logra una impresionante precisión de cero disparos en ImageNet del 81.1%, superando el mejor modelo CLIP anterior (de OpenCLIP, 80.1%) en un 1.0% y reduciendo simultáneamente el costo computacional en aproximadamente 39 veces. Además, con una inversión adicional de \$4,000, podemos elevar aún más la precisión de cero disparos en ImageNet al 81.8%. Nuestro código y modelos están disponibles en https://github.com/UCSC-VLAA/CLIPA.
English
The recent work CLIPA presents an inverse scaling law for CLIP training --
whereby the larger the image/text encoders used, the shorter the sequence
length of image/text tokens that can be applied in training. This finding
enables us to train high-performance CLIP models with significantly reduced
computations. Building upon this work, we hereby present CLIPA-v2 with two key
contributions. Technically, we find this inverse scaling law is also applicable
in the finetuning stage, enabling further reduction in computational needs.
Empirically, we explore CLIPA at scale, extending the experiments up to the
H/14 model with ~13B image-text pairs seen during training.
Our results are exciting -- by only allocating a budget of \10,000, our CLIP
model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing
the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing
the computational cost by ~39X. Moreover, with an additional investment of
4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our
code and models are available at https://github.com/UCSC-VLAA/CLIPA.