TiC-CLIP: Continueel trainen van CLIP-modellen
TiC-CLIP: Continual Training of CLIP Models
October 24, 2023
Auteurs: Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
cs.AI
Samenvatting
Het up-to-date houden van grote foundation-modellen met de nieuwste gegevens is inherent duur. Om de onbetaalbare kosten van voortdurende hertraining te vermijden, is het essentieel om deze modellen continu te trainen. Dit probleem wordt verergerd door het ontbreken van grootschalige benchmarks of referentiemodellen voor continu leren. Wij introduceren de eerste set van web-schaal Time-Continual (TiC) benchmarks voor het trainen van visie-taalmodellen: TiC-DataCompt, TiC-YFCC en TiC-RedCaps met meer dan 12,7 miljard getimestampte afbeelding-tekstparen over een periode van 9 jaar (2014–2022). We gebruiken onze benchmarks eerst om verschillende dynamische evaluaties samen te stellen om de temporele robuustheid van bestaande modellen te meten. We laten zien dat OpenAI's CLIP (getraind op gegevens tot 2020) ongeveer 8% zero-shot nauwkeurigheid verliest op onze samengestelde retrievaltaak van 2021–2022 in vergelijking met recenter getrainde modellen in de OpenCLIP-repository. Vervolgens bestuderen we hoe modellen efficiënt kunnen worden getraind op tijdcontinue gegevens. We tonen aan dat een eenvoudige rehearsal-gebaseerde aanpak, waarbij de training wordt voortgezet vanaf het laatste checkpoint en oude gegevens worden herhaald, de rekenkracht met 2,5 keer vermindert in vergelijking met de standaardpraktijk van hertraining vanaf nul.
English
Keeping large foundation models up to date on latest data is inherently
expensive. To avoid the prohibitive costs of constantly retraining, it is
imperative to continually train these models. This problem is exacerbated by
the lack of any large scale continual learning benchmarks or baselines. We
introduce the first set of web-scale Time-Continual (TiC) benchmarks for
training vision-language models: TiC-DataCompt, TiC-YFCC, and TiC-RedCaps with
over 12.7B timestamped image-text pairs spanning 9 years (2014--2022). We first
use our benchmarks to curate various dynamic evaluations to measure temporal
robustness of existing models. We show OpenAI's CLIP (trained on data up to
2020) loses approx 8% zero-shot accuracy on our curated retrieval task from
2021--2022 compared with more recently trained models in OpenCLIP repository.
We then study how to efficiently train models on time-continuous data. We
demonstrate that a simple rehearsal-based approach that continues training from
the last checkpoint and replays old data reduces compute by 2.5times when
compared to the standard practice of retraining from scratch.