Масштабирование (уменьшение) CLIP: Комплексный анализ данных, архитектуры и стратегий обучения
Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies
April 12, 2024
Авторы: Zichao Li, Cihang Xie, Ekin Dogus Cubuk
cs.AI
Аннотация
Данная статья исследует производительность метода Предварительного обучения на контрастных парах язык-изображение (CLIP) при снижении масштаба до ограниченных вычислительных бюджетов. Мы исследуем CLIP по трем измерениям: данным, архитектуре и стратегиям обучения. Что касается данных, мы демонстрируем значимость высококачественных обучающих данных и показываем, что набор данных меньшего объема с высоким качеством может превзойти более крупный набор данных с низким качеством. Мы также исследуем, как производительность модели меняется в зависимости от размеров различных наборов данных, указывая на то, что более маленькие модели ViT лучше подходят для небольших наборов данных, в то время как более крупные модели показывают лучшие результаты на больших наборах данных с фиксированными вычислениями. Кроме того, мы предоставляем рекомендации по выбору архитектуры на основе CNN или ViT для обучения CLIP. Мы сравниваем четыре стратегии обучения CLIP - SLIP, FLIP, CLIP и CLIP+Аугментация данных - и показываем, что выбор стратегии обучения зависит от доступных вычислительных ресурсов. Наш анализ показывает, что CLIP+Аугментация данных может достичь сопоставимой производительности с CLIP, используя лишь половину обучающих данных. Эта работа предоставляет практические идеи о том, как эффективно обучать и применять модели CLIP, делая их более доступными и доступными для практического использования в различных приложениях.
English
This paper investigates the performance of the Contrastive Language-Image
Pre-training (CLIP) when scaled down to limited computation budgets. We explore
CLIP along three dimensions: data, architecture, and training strategies. With
regards to data, we demonstrate the significance of high-quality training data
and show that a smaller dataset of high-quality data can outperform a larger
dataset with lower quality. We also examine how model performance varies with
different dataset sizes, suggesting that smaller ViT models are better suited
for smaller datasets, while larger models perform better on larger datasets
with fixed compute. Additionally, we provide guidance on when to choose a
CNN-based architecture or a ViT-based architecture for CLIP training. We
compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data
Augmentation - and show that the choice of training strategy depends on the
available compute resource. Our analysis reveals that CLIP+Data Augmentation
can achieve comparable performance to CLIP using only half of the training
data. This work provides practical insights into how to effectively train and
deploy CLIP models, making them more accessible and affordable for practical
use in various applications.Summary
AI-Generated Summary