CatLIP: 웹 규모 이미지-텍스트 데이터에서 2.7배 빠른 사전 학습으로 CLIP 수준의 시각 인식 정확도 달성CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster
Pre-training on Web-scale Image-Text Data
대조 학습(contrastive learning)은 이미지와 텍스트 임베딩의 정렬을 통해 효과적인 시각적 표현을 학습하는 혁신적인 방법으로 부상했습니다. 그러나 이미지와 텍스트 쌍 간의 대조 손실(contrastive loss)에서의 쌍별 유사도 계산은 계산상의 어려움을 야기합니다. 본 논문은 웹 규모의 이미지-텍스트 데이터를 이용한 시각 모델의 새로운 약한 감독(weakly supervised) 사전 학습 방법을 제안합니다. 제안된 방법은 이미지-텍스트 데이터에 대한 사전 학습을 분류 작업으로 재구성합니다. 결과적으로, 대조 손실에서의 쌍별 유사도 계산이 필요 없어져 웹 규모 데이터에 대한 대조 학습 대비 2.7배의 학습 속도 향상을 달성합니다. 탐지(detection) 및 분할(segmentation)을 포함한 다양한 시각 작업에 걸친 광범위한 실험을 통해, 제안된 방법이 높은 표현 품질을 유지함을 입증합니다. 소스 코드와 사전 학습된 모델 가중치 및 학습 레시피는 https://github.com/apple/corenet에서 확인할 수 있습니다.