CatLIP:在網絡規模的圖像文本數據上進行的訓練,實現比 CLIP 更快 2.7 倍的視覺識別準確性CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster
Pre-training on Web-scale Image-Text Data
對比學習已經成為一種透過對齊圖像和文本嵌入來學習有效視覺表示的轉變性方法。然而,在圖像和文本對之間的對比損失中進行成對相似度計算存在著計算挑戰。本文提出了一種新穎的基於網絡規模圖像文本數據的弱監督預訓練視覺模型的方法。所提出的方法將圖像文本數據上的預訓練重新定義為一個分類任務。因此,它消除了對比損失中成對相似度計算的需要,實現了與在網絡規模數據上進行對比學習相比訓練速度顯著提高了2.7倍。通過廣泛的實驗涵蓋各種視覺任務,包括檢測和分割,我們證明了所提出的方法保持了高表示質量。我們的源代碼以及預先訓練的模型權重和訓練配方可在https://github.com/apple/corenet 上找到。