ChatPaper.aiChatPaper

TiC-CLIP: Treinamento Contínuo de Modelos CLIP

TiC-CLIP: Continual Training of CLIP Models

October 24, 2023
Autores: Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
cs.AI

Resumo

Manter grandes modelos de base atualizados com os dados mais recentes é inerentemente caro. Para evitar os custos proibitivos de retreinar constantemente, é imperativo treinar continuamente esses modelos. Esse problema é agravado pela falta de benchmarks ou baselines em grande escala para aprendizado contínuo. Introduzimos o primeiro conjunto de benchmarks em escala web para treinamento de modelos visão-linguagem com foco no tempo contínuo (TiC): TiC-DataCompt, TiC-YFCC e TiC-RedCaps, com mais de 12,7 bilhões de pares de imagem-texto com carimbo de tempo, abrangendo 9 anos (2014–2022). Primeiro, usamos nossos benchmarks para criar várias avaliações dinâmicas que medem a robustez temporal de modelos existentes. Mostramos que o CLIP da OpenAI (treinado com dados até 2020) perde aproximadamente 8% de precisão zero-shot em nossa tarefa de recuperação curada de 2021–2022 em comparação com modelos mais recentes no repositório OpenCLIP. Em seguida, estudamos como treinar modelos de forma eficiente com dados contínuos no tempo. Demonstramos que uma abordagem simples baseada em repetição, que continua o treinamento a partir do último checkpoint e repete dados antigos, reduz o custo computacional em 2,5 vezes em comparação com a prática padrão de retreinar do zero.
English
Keeping large foundation models up to date on latest data is inherently expensive. To avoid the prohibitive costs of constantly retraining, it is imperative to continually train these models. This problem is exacerbated by the lack of any large scale continual learning benchmarks or baselines. We introduce the first set of web-scale Time-Continual (TiC) benchmarks for training vision-language models: TiC-DataCompt, TiC-YFCC, and TiC-RedCaps with over 12.7B timestamped image-text pairs spanning 9 years (2014--2022). We first use our benchmarks to curate various dynamic evaluations to measure temporal robustness of existing models. We show OpenAI's CLIP (trained on data up to 2020) loses approx 8% zero-shot accuracy on our curated retrieval task from 2021--2022 compared with more recently trained models in OpenCLIP repository. We then study how to efficiently train models on time-continuous data. We demonstrate that a simple rehearsal-based approach that continues training from the last checkpoint and replays old data reduces compute by 2.5times when compared to the standard practice of retraining from scratch.
PDF91December 14, 2025