Schalen (verkleinen) van CLIP: Een uitgebreide analyse van data, architectuur en trainingsstrategieën
Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies
April 12, 2024
Auteurs: Zichao Li, Cihang Xie, Ekin Dogus Cubuk
cs.AI
Samenvatting
Dit artikel onderzoekt de prestaties van Contrastive Language-Image Pre-training (CLIP) wanneer het wordt geschaald naar beperkte rekenbudgetten. We verkennen CLIP langs drie dimensies: data, architectuur en trainingsstrategieën. Wat betreft data, tonen we het belang aan van hoogwaardige trainingsdata en laten we zien dat een kleinere dataset van hoge kwaliteit beter kan presteren dan een grotere dataset van lagere kwaliteit. We onderzoeken ook hoe modelprestaties variëren bij verschillende datasetgroottes, wat suggereert dat kleinere ViT-modellen beter geschikt zijn voor kleinere datasets, terwijl grotere modellen beter presteren op grotere datasets met een vast rekenbudget. Daarnaast geven we richtlijnen over wanneer een CNN-gebaseerde architectuur of een ViT-gebaseerde architectuur te kiezen voor CLIP-training. We vergelijken vier CLIP-trainingsstrategieën - SLIP, FLIP, CLIP en CLIP+Data Augmentation - en laten zien dat de keuze van trainingsstrategie afhangt van de beschikbare rekenbronnen. Onze analyse toont aan dat CLIP+Data Augmentation vergelijkbare prestaties kan bereiken als CLIP met slechts de helft van de trainingsdata. Dit werk biedt praktische inzichten in hoe CLIP-modellen effectief kunnen worden getraind en ingezet, waardoor ze toegankelijker en betaalbaarder worden voor praktisch gebruik in diverse toepassingen.
English
This paper investigates the performance of the Contrastive Language-Image
Pre-training (CLIP) when scaled down to limited computation budgets. We explore
CLIP along three dimensions: data, architecture, and training strategies. With
regards to data, we demonstrate the significance of high-quality training data
and show that a smaller dataset of high-quality data can outperform a larger
dataset with lower quality. We also examine how model performance varies with
different dataset sizes, suggesting that smaller ViT models are better suited
for smaller datasets, while larger models perform better on larger datasets
with fixed compute. Additionally, we provide guidance on when to choose a
CNN-based architecture or a ViT-based architecture for CLIP training. We
compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data
Augmentation - and show that the choice of training strategy depends on the
available compute resource. Our analysis reveals that CLIP+Data Augmentation
can achieve comparable performance to CLIP using only half of the training
data. This work provides practical insights into how to effectively train and
deploy CLIP models, making them more accessible and affordable for practical
use in various applications.