Scalare (in Riduzione) CLIP: Un'Analisi Completa di Dati, Architettura e Strategie di Addestramento

Abstract

Questo articolo indaga le prestazioni del Contrastive Language-Image Pre-training (CLIP) quando ridimensionato a budget computazionali limitati. Esploriamo CLIP lungo tre dimensioni: dati, architettura e strategie di addestramento. Per quanto riguarda i dati, dimostriamo l'importanza di dati di addestramento di alta qualità e mostriamo che un dataset più piccolo ma di alta qualità può superare un dataset più ampio ma di qualità inferiore. Esaminiamo inoltre come le prestazioni del modello variano con diverse dimensioni dei dataset, suggerendo che modelli ViT più piccoli sono più adatti per dataset più piccoli, mentre modelli più grandi performano meglio su dataset più ampi con risorse computazionali fisse. Inoltre, forniamo indicazioni su quando scegliere un'architettura basata su CNN o su ViT per l'addestramento di CLIP. Confrontiamo quattro strategie di addestramento di CLIP - SLIP, FLIP, CLIP e CLIP+Data Augmentation - e mostriamo che la scelta della strategia di addestramento dipende dalle risorse computazionali disponibili. La nostra analisi rivela che CLIP+Data Augmentation può raggiungere prestazioni comparabili a CLIP utilizzando solo la metà dei dati di addestramento. Questo lavoro fornisce intuizioni pratiche su come addestrare e implementare efficacemente modelli CLIP, rendendoli più accessibili e convenienti per un uso pratico in varie applicazioni.

English

This paper investigates the performance of the Contrastive Language-Image Pre-training (CLIP) when scaled down to limited computation budgets. We explore CLIP along three dimensions: data, architecture, and training strategies. With regards to data, we demonstrate the significance of high-quality training data and show that a smaller dataset of high-quality data can outperform a larger dataset with lower quality. We also examine how model performance varies with different dataset sizes, suggesting that smaller ViT models are better suited for smaller datasets, while larger models perform better on larger datasets with fixed compute. Additionally, we provide guidance on when to choose a CNN-based architecture or a ViT-based architecture for CLIP training. We compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data Augmentation - and show that the choice of training strategy depends on the available compute resource. Our analysis reveals that CLIP+Data Augmentation can achieve comparable performance to CLIP using only half of the training data. This work provides practical insights into how to effectively train and deploy CLIP models, making them more accessible and affordable for practical use in various applications.

Scalare (in Riduzione) CLIP: Un'Analisi Completa di Dati, Architettura e Strategie di Addestramento

Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies

Abstract

Support