Escalado (a menor escala) de CLIP: Un análisis exhaustivo de datos, arquitectura y estrategias de entrenamiento

Resumen

Este artículo investiga el rendimiento del modelo Contrastive Language-Image Pre-training (CLIP) cuando se escala para ajustarse a presupuestos computacionales limitados. Exploramos CLIP en tres dimensiones: datos, arquitectura y estrategias de entrenamiento. En cuanto a los datos, demostramos la importancia de los datos de entrenamiento de alta calidad y mostramos que un conjunto de datos más pequeño pero de alta calidad puede superar a un conjunto de datos más grande pero de menor calidad. También examinamos cómo varía el rendimiento del modelo con diferentes tamaños de conjuntos de datos, sugiriendo que los modelos ViT más pequeños son más adecuados para conjuntos de datos más pequeños, mientras que los modelos más grandes funcionan mejor en conjuntos de datos más grandes con un cómputo fijo. Además, proporcionamos orientación sobre cuándo elegir una arquitectura basada en CNN o una basada en ViT para el entrenamiento de CLIP. Comparamos cuatro estrategias de entrenamiento de CLIP —SLIP, FLIP, CLIP y CLIP+Aumento de Datos— y mostramos que la elección de la estrategia de entrenamiento depende de los recursos computacionales disponibles. Nuestro análisis revela que CLIP+Aumento de Datos puede lograr un rendimiento comparable al de CLIP utilizando solo la mitad de los datos de entrenamiento. Este trabajo ofrece ideas prácticas sobre cómo entrenar e implementar modelos CLIP de manera efectiva, haciéndolos más accesibles y asequibles para su uso práctico en diversas aplicaciones.

English

This paper investigates the performance of the Contrastive Language-Image Pre-training (CLIP) when scaled down to limited computation budgets. We explore CLIP along three dimensions: data, architecture, and training strategies. With regards to data, we demonstrate the significance of high-quality training data and show that a smaller dataset of high-quality data can outperform a larger dataset with lower quality. We also examine how model performance varies with different dataset sizes, suggesting that smaller ViT models are better suited for smaller datasets, while larger models perform better on larger datasets with fixed compute. Additionally, we provide guidance on when to choose a CNN-based architecture or a ViT-based architecture for CLIP training. We compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data Augmentation - and show that the choice of training strategy depends on the available compute resource. Our analysis reveals that CLIP+Data Augmentation can achieve comparable performance to CLIP using only half of the training data. This work provides practical insights into how to effectively train and deploy CLIP models, making them more accessible and affordable for practical use in various applications.

Escalado (a menor escala) de CLIP: Un análisis exhaustivo de datos, arquitectura y estrategias de entrenamiento

Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies

Resumen

Support