TiC-CLIP: Постоянное обучение моделей CLIP
TiC-CLIP: Continual Training of CLIP Models
October 24, 2023
Авторы: Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
cs.AI
Аннотация
Поддержание крупных базовых моделей в актуальном состоянии с учетом последних данных изначально является дорогостоящим процессом. Чтобы избежать непомерных затрат на постоянное переобучение, крайне важно осуществлять непрерывное обучение этих моделей. Эта проблема усугубляется отсутствием крупномасштабных бенчмарков или базовых линий для непрерывного обучения. Мы представляем первый набор веб-масштабных бенчмарков для временно-непрерывного (Time-Continual, TiC) обучения моделей, работающих с визуальными и текстовыми данными: TiC-DataCompt, TiC-YFCC и TiC-RedCaps, содержащих более 12,7 миллиардов временно-помеченных пар изображение-текст за период 9 лет (2014–2022). Сначала мы используем наши бенчмарки для создания различных динамических оценок, чтобы измерить временную устойчивость существующих моделей. Мы показываем, что модель CLIP от OpenAI (обученная на данных до 2020 года) теряет примерно 8% точности в задаче нулевого сэмплинга на нашем подобранном задании по поиску за период 2021–2022 годов по сравнению с более недавно обученными моделями из репозитория OpenCLIP. Затем мы исследуем, как эффективно обучать модели на временно-непрерывных данных. Мы демонстрируем, что простой подход на основе повторения, который продолжает обучение с последнего контрольного пункта и воспроизводит старые данные, сокращает вычислительные затраты в 2,5 раза по сравнению с стандартной практикой переобучения с нуля.
English
Keeping large foundation models up to date on latest data is inherently
expensive. To avoid the prohibitive costs of constantly retraining, it is
imperative to continually train these models. This problem is exacerbated by
the lack of any large scale continual learning benchmarks or baselines. We
introduce the first set of web-scale Time-Continual (TiC) benchmarks for
training vision-language models: TiC-DataCompt, TiC-YFCC, and TiC-RedCaps with
over 12.7B timestamped image-text pairs spanning 9 years (2014--2022). We first
use our benchmarks to curate various dynamic evaluations to measure temporal
robustness of existing models. We show OpenAI's CLIP (trained on data up to
2020) loses approx 8% zero-shot accuracy on our curated retrieval task from
2021--2022 compared with more recently trained models in OpenCLIP repository.
We then study how to efficiently train models on time-continuous data. We
demonstrate that a simple rehearsal-based approach that continues training from
the last checkpoint and replays old data reduces compute by 2.5times when
compared to the standard practice of retraining from scratch.