ChatPaper.aiChatPaper

TiC-CLIP: Entrenamiento Continuo de Modelos CLIP

TiC-CLIP: Continual Training of CLIP Models

October 24, 2023
Autores: Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
cs.AI

Resumen

Mantener actualizados los grandes modelos de base con los datos más recientes es inherentemente costoso. Para evitar los gastos prohibitivos de reentrenar constantemente, es imperativo entrenar continuamente estos modelos. Este problema se ve agravado por la falta de puntos de referencia o líneas base a gran escala para el aprendizaje continuo. Introducimos el primer conjunto de puntos de referencia a escala web para el entrenamiento continuo en el tiempo (TiC) de modelos de visión y lenguaje: TiC-DataCompt, TiC-YFCC y TiC-RedCaps, con más de 12.700 millones de pares de imágenes-texto con marcas de tiempo que abarcan 9 años (2014-2022). Primero utilizamos nuestros puntos de referencia para diseñar diversas evaluaciones dinámicas que miden la robustez temporal de los modelos existentes. Mostramos que CLIP de OpenAI (entrenado con datos hasta 2020) pierde aproximadamente un 8% de precisión en tareas de recuperación de cero disparos en nuestro conjunto de datos curado de 2021-2022 en comparación con modelos más recientes del repositorio OpenCLIP. Luego estudiamos cómo entrenar modelos de manera eficiente con datos continuos en el tiempo. Demostramos que un enfoque simple basado en repetición, que continúa el entrenamiento desde el último punto de control y repite datos antiguos, reduce el cómputo en 2.5 veces en comparación con la práctica estándar de reentrenar desde cero.
English
Keeping large foundation models up to date on latest data is inherently expensive. To avoid the prohibitive costs of constantly retraining, it is imperative to continually train these models. This problem is exacerbated by the lack of any large scale continual learning benchmarks or baselines. We introduce the first set of web-scale Time-Continual (TiC) benchmarks for training vision-language models: TiC-DataCompt, TiC-YFCC, and TiC-RedCaps with over 12.7B timestamped image-text pairs spanning 9 years (2014--2022). We first use our benchmarks to curate various dynamic evaluations to measure temporal robustness of existing models. We show OpenAI's CLIP (trained on data up to 2020) loses approx 8% zero-shot accuracy on our curated retrieval task from 2021--2022 compared with more recently trained models in OpenCLIP repository. We then study how to efficiently train models on time-continuous data. We demonstrate that a simple rehearsal-based approach that continues training from the last checkpoint and replays old data reduces compute by 2.5times when compared to the standard practice of retraining from scratch.
PDF91December 15, 2024