ChatPaper.aiChatPaper

CatLIP: 웹 규모 이미지-텍스트 데이터에서 2.7배 빠른 사전 학습으로 CLIP 수준의 시각 인식 정확도 달성

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

April 24, 2024
저자: Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, Mohammad Rastegari
cs.AI

초록

대조 학습(contrastive learning)은 이미지와 텍스트 임베딩의 정렬을 통해 효과적인 시각적 표현을 학습하는 혁신적인 방법으로 부상했습니다. 그러나 이미지와 텍스트 쌍 간의 대조 손실(contrastive loss)에서의 쌍별 유사도 계산은 계산상의 어려움을 야기합니다. 본 논문은 웹 규모의 이미지-텍스트 데이터를 이용한 시각 모델의 새로운 약한 감독(weakly supervised) 사전 학습 방법을 제안합니다. 제안된 방법은 이미지-텍스트 데이터에 대한 사전 학습을 분류 작업으로 재구성합니다. 결과적으로, 대조 손실에서의 쌍별 유사도 계산이 필요 없어져 웹 규모 데이터에 대한 대조 학습 대비 2.7배의 학습 속도 향상을 달성합니다. 탐지(detection) 및 분할(segmentation)을 포함한 다양한 시각 작업에 걸친 광범위한 실험을 통해, 제안된 방법이 높은 표현 품질을 유지함을 입증합니다. 소스 코드와 사전 학습된 모델 가중치 및 학습 레시피는 https://github.com/apple/corenet에서 확인할 수 있습니다.
English
Contrastive learning has emerged as a transformative method for learning effective visual representations through the alignment of image and text embeddings. However, pairwise similarity computation in contrastive loss between image and text pairs poses computational challenges. This paper presents a novel weakly supervised pre-training of vision models on web-scale image-text data. The proposed method reframes pre-training on image-text data as a classification task. Consequently, it eliminates the need for pairwise similarity computations in contrastive loss, achieving a remarkable 2.7times acceleration in training speed compared to contrastive learning on web-scale data. Through extensive experiments spanning diverse vision tasks, including detection and segmentation, we demonstrate that the proposed method maintains high representation quality. Our source code along with pre-trained model weights and training recipes is available at https://github.com/apple/corenet.

Summary

AI-Generated Summary

PDF303December 15, 2024