Scalare (in Riduzione) CLIP: Un'Analisi Completa di Dati, Architettura e Strategie di Addestramento
Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies
April 12, 2024
Autori: Zichao Li, Cihang Xie, Ekin Dogus Cubuk
cs.AI
Abstract
Questo articolo indaga le prestazioni del Contrastive Language-Image Pre-training (CLIP) quando ridimensionato a budget computazionali limitati. Esploriamo CLIP lungo tre dimensioni: dati, architettura e strategie di addestramento. Per quanto riguarda i dati, dimostriamo l'importanza di dati di addestramento di alta qualità e mostriamo che un dataset più piccolo ma di alta qualità può superare un dataset più ampio ma di qualità inferiore. Esaminiamo inoltre come le prestazioni del modello variano con diverse dimensioni dei dataset, suggerendo che modelli ViT più piccoli sono più adatti per dataset più piccoli, mentre modelli più grandi performano meglio su dataset più ampi con risorse computazionali fisse. Inoltre, forniamo indicazioni su quando scegliere un'architettura basata su CNN o su ViT per l'addestramento di CLIP. Confrontiamo quattro strategie di addestramento di CLIP - SLIP, FLIP, CLIP e CLIP+Data Augmentation - e mostriamo che la scelta della strategia di addestramento dipende dalle risorse computazionali disponibili. La nostra analisi rivela che CLIP+Data Augmentation può raggiungere prestazioni comparabili a CLIP utilizzando solo la metà dei dati di addestramento. Questo lavoro fornisce intuizioni pratiche su come addestrare e implementare efficacemente modelli CLIP, rendendoli più accessibili e convenienti per un uso pratico in varie applicazioni.
English
This paper investigates the performance of the Contrastive Language-Image
Pre-training (CLIP) when scaled down to limited computation budgets. We explore
CLIP along three dimensions: data, architecture, and training strategies. With
regards to data, we demonstrate the significance of high-quality training data
and show that a smaller dataset of high-quality data can outperform a larger
dataset with lower quality. We also examine how model performance varies with
different dataset sizes, suggesting that smaller ViT models are better suited
for smaller datasets, while larger models perform better on larger datasets
with fixed compute. Additionally, we provide guidance on when to choose a
CNN-based architecture or a ViT-based architecture for CLIP training. We
compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data
Augmentation - and show that the choice of training strategy depends on the
available compute resource. Our analysis reveals that CLIP+Data Augmentation
can achieve comparable performance to CLIP using only half of the training
data. This work provides practical insights into how to effectively train and
deploy CLIP models, making them more accessible and affordable for practical
use in various applications.