ChatPaper.aiChatPaper

Démystification des données CLIP

Demystifying CLIP Data

September 28, 2023
papers.authors: Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
cs.AI

papers.abstract

Le pré-entraînement contrastif texte-image (CLIP) est une approche qui a fait progresser la recherche et les applications en vision par ordinateur, alimentant les systèmes de reconnaissance modernes et les modèles génératifs. Nous pensons que l'ingrédient principal du succès de CLIP réside dans ses données, et non dans l'architecture du modèle ou l'objectif de pré-entraînement. Cependant, CLIP ne fournit que des informations très limitées sur ses données et sur la manière dont elles ont été collectées, ce qui a conduit à des travaux visant à reproduire les données de CLIP en les filtrant à l'aide de ses paramètres de modèle. Dans ce travail, nous souhaitons révéler l'approche de curation des données de CLIP et, dans notre quête pour la rendre accessible à la communauté, nous introduisons le pré-entraînement texte-image avec curation de métadonnées (MetaCLIP). MetaCLIP prend un pool de données brutes et des métadonnées (dérivées des concepts de CLIP) et produit un sous-ensemble équilibré selon la distribution des métadonnées. Notre étude expérimentale isole rigoureusement le modèle et les paramètres d'entraînement, en se concentrant uniquement sur les données. MetaCLIP appliqué à CommonCrawl avec 400 millions de paires image-texte surpasse les données de CLIP sur plusieurs benchmarks standards. En classification zéro-shot sur ImageNet, MetaCLIP atteint une précision de 70,8 %, dépassant les 68,3 % de CLIP sur les modèles ViT-B. En passant à 1 milliard de données, tout en conservant le même budget d'entraînement, on atteint 72,4 %. Nos observations se vérifient pour différentes tailles de modèles, comme en témoigne ViT-H qui atteint 80,5 %, sans aucune fioriture. Le code de curation et la distribution des données d'entraînement sur les métadonnées sont disponibles à l'adresse https://github.com/facebookresearch/MetaCLIP.
English
Contrastive Language-Image Pre-training (CLIP) is an approach that has advanced research and applications in computer vision, fueling modern recognition systems and generative models. We believe that the main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective. However, CLIP only provides very limited information about its data and how it has been collected, leading to works that aim to reproduce CLIP's data by filtering with its model parameters. In this work, we intend to reveal CLIP's data curation approach and in our pursuit of making it open to the community introduce Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's concepts) and yields a balanced subset over the metadata distribution. Our experimental study rigorously isolates the model and training settings, concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M image-text data pairs outperforms CLIP's data on multiple standard benchmarks. In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy, surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining the same training budget, attains 72.4%. Our observations hold across various model sizes, exemplified by ViT-H achieving 80.5%, without any bells-and-whistles. Curation code and training data distribution on metadata is made available at https://github.com/facebookresearch/MetaCLIP.
PDF203December 15, 2024