TiC-CLIP: Kontinuierliches Training von CLIP-Modellen
TiC-CLIP: Continual Training of CLIP Models
October 24, 2023
Autoren: Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
cs.AI
Zusammenfassung
Die Aktualisierung großer Foundation-Modelle mit den neuesten Daten ist von Natur aus kostspielig. Um die unerschwinglichen Kosten einer ständigen Neuanpassung zu vermeiden, ist es unerlässlich, diese Modelle kontinuierlich weiterzutrainieren. Dieses Problem wird durch das Fehlen von groß angelegten Benchmarks oder Baselines für kontinuierliches Lernen noch verschärft. Wir stellen die ersten Web-Scale-Time-Continual-(TiC)-Benchmarks für das Training von Vision-Language-Modellen vor: TiC-DataCompt, TiC-YFCC und TiC-RedCaps mit über 12,7 Milliarden zeitlich markierten Bild-Text-Paaren, die einen Zeitraum von 9 Jahren (2014–2022) abdecken. Zunächst nutzen wir unsere Benchmarks, um verschiedene dynamische Evaluierungen zu erstellen, um die zeitliche Robustheit bestehender Modelle zu messen. Wir zeigen, dass OpenAIs CLIP (mit Daten bis 2020 trainiert) bei unserer kuratierten Retrieval-Aufgabe für den Zeitraum 2021–2022 im Vergleich zu kürzlich trainierten Modellen im OpenCLIP-Repository etwa 8 % an Zero-Shot-Genauigkeit verliert. Anschließend untersuchen wir, wie Modelle effizient auf zeitlich kontinuierlichen Daten trainiert werden können. Wir demonstrieren, dass ein einfacher, auf Rehearsal basierender Ansatz, der das Training vom letzten Checkpoint aus fortsetzt und alte Daten wiederverwendet, den Rechenaufwand im Vergleich zur Standardpraxis des Neuanfangstrainings um das 2,5-fache reduziert.
English
Keeping large foundation models up to date on latest data is inherently
expensive. To avoid the prohibitive costs of constantly retraining, it is
imperative to continually train these models. This problem is exacerbated by
the lack of any large scale continual learning benchmarks or baselines. We
introduce the first set of web-scale Time-Continual (TiC) benchmarks for
training vision-language models: TiC-DataCompt, TiC-YFCC, and TiC-RedCaps with
over 12.7B timestamped image-text pairs spanning 9 years (2014--2022). We first
use our benchmarks to curate various dynamic evaluations to measure temporal
robustness of existing models. We show OpenAI's CLIP (trained on data up to
2020) loses approx 8% zero-shot accuracy on our curated retrieval task from
2021--2022 compared with more recently trained models in OpenCLIP repository.
We then study how to efficiently train models on time-continuous data. We
demonstrate that a simple rehearsal-based approach that continues training from
the last checkpoint and replays old data reduces compute by 2.5times when
compared to the standard practice of retraining from scratch.