CatLIP: Webスケールの画像テキストデータを用いた2.7倍高速な事前学習でCLIPレベルの視覚認識精度を実現
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data
April 24, 2024
著者: Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, Mohammad Rastegari
cs.AI
要旨
コントラスティブ学習は、画像とテキストの埋め込みを整列させることで効果的な視覚表現を学習する革新的な手法として登場しました。しかし、画像とテキストのペア間のコントラスティブ損失におけるペアワイズ類似度計算は、計算上の課題を引き起こします。本論文では、ウェブスケールの画像-テキストデータを用いた視覚モデルの弱教師あり事前学習の新たな手法を提案します。提案手法は、画像-テキストデータの事前学習を分類タスクとして再定義します。その結果、コントラスティブ損失におけるペアワイズ類似度計算が不要となり、ウェブスケールデータでのコントラスティブ学習と比較して、訓練速度が2.7倍向上します。検出やセグメンテーションを含む多様な視覚タスクにわたる広範な実験を通じて、提案手法が高い表現品質を維持することを実証します。ソースコード、事前学習済みモデルの重み、および訓練レシピはhttps://github.com/apple/corenetで公開されています。
English
Contrastive learning has emerged as a transformative method for learning
effective visual representations through the alignment of image and text
embeddings. However, pairwise similarity computation in contrastive loss
between image and text pairs poses computational challenges. This paper
presents a novel weakly supervised pre-training of vision models on web-scale
image-text data. The proposed method reframes pre-training on image-text data
as a classification task. Consequently, it eliminates the need for pairwise
similarity computations in contrastive loss, achieving a remarkable 2.7times
acceleration in training speed compared to contrastive learning on web-scale
data. Through extensive experiments spanning diverse vision tasks, including
detection and segmentation, we demonstrate that the proposed method maintains
high representation quality. Our source code along with pre-trained model
weights and training recipes is available at
https://github.com/apple/corenet.Summary
AI-Generated Summary