TiC-CLIP: Addestramento Continuo di Modelli CLIP

Abstract

Mantenere aggiornati i grandi modelli di base sui dati più recenti è intrinsecamente costoso. Per evitare i costi proibitivi di un continuo riaddestramento, è imperativo addestrare continuamente questi modelli. Questo problema è aggravato dalla mancanza di benchmark o baseline su larga scala per l'apprendimento continuo. Introduciamo il primo set di benchmark Time-Continual (TiC) su scala web per l'addestramento di modelli visione-linguaggio: TiC-DataCompt, TiC-YFCC e TiC-RedCaps, con oltre 12,7 miliardi di coppie immagine-testo con timestamp che coprono 9 anni (2014-2022). Utilizziamo prima i nostri benchmark per curare varie valutazioni dinamiche per misurare la robustezza temporale dei modelli esistenti. Mostriamo che il modello CLIP di OpenAI (addestrato su dati fino al 2020) perde circa l'8% di accuratezza zero-shot nel nostro task di retrieval curato per il periodo 2021-2022 rispetto ai modelli più recenti nel repository OpenCLIP. Studiamo poi come addestrare in modo efficiente i modelli su dati continui nel tempo. Dimostriamo che un semplice approccio basato sul rehearsal, che continua l'addestramento dall'ultimo checkpoint e ripropone i vecchi dati, riduce il calcolo di 2,5 volte rispetto alla pratica standard di riaddestrare da zero.

English

Keeping large foundation models up to date on latest data is inherently expensive. To avoid the prohibitive costs of constantly retraining, it is imperative to continually train these models. This problem is exacerbated by the lack of any large scale continual learning benchmarks or baselines. We introduce the first set of web-scale Time-Continual (TiC) benchmarks for training vision-language models: TiC-DataCompt, TiC-YFCC, and TiC-RedCaps with over 12.7B timestamped image-text pairs spanning 9 years (2014--2022). We first use our benchmarks to curate various dynamic evaluations to measure temporal robustness of existing models. We show OpenAI's CLIP (trained on data up to 2020) loses approx 8% zero-shot accuracy on our curated retrieval task from 2021--2022 compared with more recently trained models in OpenCLIP repository. We then study how to efficiently train models on time-continuous data. We demonstrate that a simple rehearsal-based approach that continues training from the last checkpoint and replays old data reduces compute by 2.5times when compared to the standard practice of retraining from scratch.

TiC-CLIP: Addestramento Continuo di Modelli CLIP

TiC-CLIP: Continual Training of CLIP Models

Abstract

Support