CatLIP: Webスケールの画像テキストデータを用いた2.7倍高速な事前学習でCLIPレベルの視覚認識精度を実現CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster
Pre-training on Web-scale Image-Text Data
コントラスティブ学習は、画像とテキストの埋め込みを整列させることで効果的な視覚表現を学習する革新的な手法として登場しました。しかし、画像とテキストのペア間のコントラスティブ損失におけるペアワイズ類似度計算は、計算上の課題を引き起こします。本論文では、ウェブスケールの画像-テキストデータを用いた視覚モデルの弱教師あり事前学習の新たな手法を提案します。提案手法は、画像-テキストデータの事前学習を分類タスクとして再定義します。その結果、コントラスティブ損失におけるペアワイズ類似度計算が不要となり、ウェブスケールデータでのコントラスティブ学習と比較して、訓練速度が2.7倍向上します。検出やセグメンテーションを含む多様な視覚タスクにわたる広範な実験を通じて、提案手法が高い表現品質を維持することを実証します。ソースコード、事前学習済みモデルの重み、および訓練レシピはhttps://github.com/apple/corenetで公開されています。