ChatPaper.aiChatPaper

TiC-CLIP : Entraînement continu des modèles CLIP

TiC-CLIP: Continual Training of CLIP Models

October 24, 2023
Auteurs: Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
cs.AI

Résumé

Maintenir les grands modèles de fond à jour avec les dernières données est intrinsèquement coûteux. Pour éviter les coûts prohibitifs d'un réentraînement constant, il est impératif de former continuellement ces modèles. Ce problème est exacerbé par l'absence de benchmarks ou de références à grande échelle pour l'apprentissage continu. Nous introduisons le premier ensemble de benchmarks web-scale Time-Continual (TiC) pour l'entraînement de modèles vision-langage : TiC-DataCompt, TiC-YFCC et TiC-RedCaps, comprenant plus de 12,7 milliards de paires image-texte datées couvrant 9 ans (2014-2022). Nous utilisons d'abord nos benchmarks pour concevoir diverses évaluations dynamiques afin de mesurer la robustesse temporelle des modèles existants. Nous montrons que CLIP d'OpenAI (entraîné sur des données jusqu'en 2020) perd environ 8 % de précision en zero-shot sur notre tâche de récupération conçue pour 2021-2022 par rapport aux modèles plus récemment entraînés dans le référentiel OpenCLIP. Nous étudions ensuite comment entraîner efficacement les modèles sur des données temporellement continues. Nous démontrons qu'une approche simple basée sur la répétition, qui poursuit l'entraînement à partir du dernier point de contrôle et rejoue les anciennes données, réduit le calcul par un facteur de 2,5 par rapport à la pratique standard de réentraînement à partir de zéro.
English
Keeping large foundation models up to date on latest data is inherently expensive. To avoid the prohibitive costs of constantly retraining, it is imperative to continually train these models. This problem is exacerbated by the lack of any large scale continual learning benchmarks or baselines. We introduce the first set of web-scale Time-Continual (TiC) benchmarks for training vision-language models: TiC-DataCompt, TiC-YFCC, and TiC-RedCaps with over 12.7B timestamped image-text pairs spanning 9 years (2014--2022). We first use our benchmarks to curate various dynamic evaluations to measure temporal robustness of existing models. We show OpenAI's CLIP (trained on data up to 2020) loses approx 8% zero-shot accuracy on our curated retrieval task from 2021--2022 compared with more recently trained models in OpenCLIP repository. We then study how to efficiently train models on time-continuous data. We demonstrate that a simple rehearsal-based approach that continues training from the last checkpoint and replays old data reduces compute by 2.5times when compared to the standard practice of retraining from scratch.
PDF91December 15, 2024