Escalonamento (Redução) do CLIP: Uma Análise Abrangente de Dados, Arquitetura e Estratégias de Treinamento
Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies
April 12, 2024
Autores: Zichao Li, Cihang Xie, Ekin Dogus Cubuk
cs.AI
Resumo
Este artigo investiga o desempenho do Contrastive Language-Image Pre-training (CLIP) quando dimensionado para orçamentos computacionais limitados. Exploramos o CLIP em três dimensões: dados, arquitetura e estratégias de treinamento. Em relação aos dados, demonstramos a importância de dados de treinamento de alta qualidade e mostramos que um conjunto de dados menor, mas de alta qualidade, pode superar um conjunto de dados maior com qualidade inferior. Também examinamos como o desempenho do modelo varia com diferentes tamanhos de conjuntos de dados, sugerindo que modelos ViT menores são mais adequados para conjuntos de dados menores, enquanto modelos maiores têm melhor desempenho em conjuntos de dados maiores com computação fixa. Além disso, fornecemos orientações sobre quando escolher uma arquitetura baseada em CNN ou uma baseada em ViT para o treinamento do CLIP. Comparamos quatro estratégias de treinamento do CLIP - SLIP, FLIP, CLIP e CLIP+Aumento de Dados - e mostramos que a escolha da estratégia de treinamento depende do recurso computacional disponível. Nossa análise revela que o CLIP+Aumento de Dados pode alcançar desempenho comparável ao CLIP usando apenas metade dos dados de treinamento. Este trabalho fornece insights práticos sobre como treinar e implantar modelos CLIP de forma eficaz, tornando-os mais acessíveis e viáveis para uso prático em diversas aplicações.
English
This paper investigates the performance of the Contrastive Language-Image
Pre-training (CLIP) when scaled down to limited computation budgets. We explore
CLIP along three dimensions: data, architecture, and training strategies. With
regards to data, we demonstrate the significance of high-quality training data
and show that a smaller dataset of high-quality data can outperform a larger
dataset with lower quality. We also examine how model performance varies with
different dataset sizes, suggesting that smaller ViT models are better suited
for smaller datasets, while larger models perform better on larger datasets
with fixed compute. Additionally, we provide guidance on when to choose a
CNN-based architecture or a ViT-based architecture for CLIP training. We
compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data
Augmentation - and show that the choice of training strategy depends on the
available compute resource. Our analysis reveals that CLIP+Data Augmentation
can achieve comparable performance to CLIP using only half of the training
data. This work provides practical insights into how to effectively train and
deploy CLIP models, making them more accessible and affordable for practical
use in various applications.