CatLIP: Precisão de Reconhecimento Visual no Nível do CLIP com Pré-treinamento 2,7x Mais Rápido em Dados de Imagem-Texto em Escala Web
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data
April 24, 2024
Autores: Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, Mohammad Rastegari
cs.AI
Resumo
O aprendizado contrastivo emergiu como um método transformador para aprender
representações visuais eficazes por meio do alinhamento de embeddings de imagem e
texto. No entanto, o cálculo de similaridade em pares na função de perda contrastiva
entre pares de imagem e texto apresenta desafios computacionais. Este artigo
apresenta uma nova abordagem de pré-treinamento fracamente supervisionado de
modelos de visão em dados de imagem-texto em escala web. O método proposto
reformula o pré-treinamento em dados de imagem-texto como uma tarefa de
classificação. Consequentemente, elimina a necessidade de cálculos de similaridade
em pares na função de perda contrastiva, alcançando uma aceleração notável de 2,7
vezes na velocidade de treinamento em comparação com o aprendizado contrastivo
em dados de escala web. Por meio de extensos experimentos abrangendo diversas
tarefas de visão, incluindo detecção e segmentação, demonstramos que o método
proposto mantém uma alta qualidade de representação. Nosso código-fonte, juntamente
com os pesos dos modelos pré-treinados e as receitas de treinamento, está disponível
em https://github.com/apple/corenet.
English
Contrastive learning has emerged as a transformative method for learning
effective visual representations through the alignment of image and text
embeddings. However, pairwise similarity computation in contrastive loss
between image and text pairs poses computational challenges. This paper
presents a novel weakly supervised pre-training of vision models on web-scale
image-text data. The proposed method reframes pre-training on image-text data
as a classification task. Consequently, it eliminates the need for pairwise
similarity computations in contrastive loss, achieving a remarkable 2.7times
acceleration in training speed compared to contrastive learning on web-scale
data. Through extensive experiments spanning diverse vision tasks, including
detection and segmentation, we demonstrate that the proposed method maintains
high representation quality. Our source code along with pre-trained model
weights and training recipes is available at
https://github.com/apple/corenet.