Escalado (a menor escala) de CLIP: Un análisis exhaustivo de datos, arquitectura y estrategias de entrenamiento
Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies
April 12, 2024
Autores: Zichao Li, Cihang Xie, Ekin Dogus Cubuk
cs.AI
Resumen
Este artículo investiga el rendimiento del modelo Contrastive Language-Image Pre-training (CLIP) cuando se escala para ajustarse a presupuestos computacionales limitados. Exploramos CLIP en tres dimensiones: datos, arquitectura y estrategias de entrenamiento. En cuanto a los datos, demostramos la importancia de los datos de entrenamiento de alta calidad y mostramos que un conjunto de datos más pequeño pero de alta calidad puede superar a un conjunto de datos más grande pero de menor calidad. También examinamos cómo varía el rendimiento del modelo con diferentes tamaños de conjuntos de datos, sugiriendo que los modelos ViT más pequeños son más adecuados para conjuntos de datos más pequeños, mientras que los modelos más grandes funcionan mejor en conjuntos de datos más grandes con un cómputo fijo. Además, proporcionamos orientación sobre cuándo elegir una arquitectura basada en CNN o una basada en ViT para el entrenamiento de CLIP. Comparamos cuatro estrategias de entrenamiento de CLIP —SLIP, FLIP, CLIP y CLIP+Aumento de Datos— y mostramos que la elección de la estrategia de entrenamiento depende de los recursos computacionales disponibles. Nuestro análisis revela que CLIP+Aumento de Datos puede lograr un rendimiento comparable al de CLIP utilizando solo la mitad de los datos de entrenamiento. Este trabajo ofrece ideas prácticas sobre cómo entrenar e implementar modelos CLIP de manera efectiva, haciéndolos más accesibles y asequibles para su uso práctico en diversas aplicaciones.
English
This paper investigates the performance of the Contrastive Language-Image
Pre-training (CLIP) when scaled down to limited computation budgets. We explore
CLIP along three dimensions: data, architecture, and training strategies. With
regards to data, we demonstrate the significance of high-quality training data
and show that a smaller dataset of high-quality data can outperform a larger
dataset with lower quality. We also examine how model performance varies with
different dataset sizes, suggesting that smaller ViT models are better suited
for smaller datasets, while larger models perform better on larger datasets
with fixed compute. Additionally, we provide guidance on when to choose a
CNN-based architecture or a ViT-based architecture for CLIP training. We
compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data
Augmentation - and show that the choice of training strategy depends on the
available compute resource. Our analysis reveals that CLIP+Data Augmentation
can achieve comparable performance to CLIP using only half of the training
data. This work provides practical insights into how to effectively train and
deploy CLIP models, making them more accessible and affordable for practical
use in various applications.Summary
AI-Generated Summary