ChatPaper.aiChatPaper

CatLIP: Precisão de Reconhecimento Visual no Nível do CLIP com Pré-treinamento 2,7x Mais Rápido em Dados de Imagem-Texto em Escala Web

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

April 24, 2024
Autores: Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, Mohammad Rastegari
cs.AI

Resumo

O aprendizado contrastivo emergiu como um método transformador para aprender representações visuais eficazes por meio do alinhamento de embeddings de imagem e texto. No entanto, o cálculo de similaridade em pares na função de perda contrastiva entre pares de imagem e texto apresenta desafios computacionais. Este artigo apresenta uma nova abordagem de pré-treinamento fracamente supervisionado de modelos de visão em dados de imagem-texto em escala web. O método proposto reformula o pré-treinamento em dados de imagem-texto como uma tarefa de classificação. Consequentemente, elimina a necessidade de cálculos de similaridade em pares na função de perda contrastiva, alcançando uma aceleração notável de 2,7 vezes na velocidade de treinamento em comparação com o aprendizado contrastivo em dados de escala web. Por meio de extensos experimentos abrangendo diversas tarefas de visão, incluindo detecção e segmentação, demonstramos que o método proposto mantém uma alta qualidade de representação. Nosso código-fonte, juntamente com os pesos dos modelos pré-treinados e as receitas de treinamento, está disponível em https://github.com/apple/corenet.
English
Contrastive learning has emerged as a transformative method for learning effective visual representations through the alignment of image and text embeddings. However, pairwise similarity computation in contrastive loss between image and text pairs poses computational challenges. This paper presents a novel weakly supervised pre-training of vision models on web-scale image-text data. The proposed method reframes pre-training on image-text data as a classification task. Consequently, it eliminates the need for pairwise similarity computations in contrastive loss, achieving a remarkable 2.7times acceleration in training speed compared to contrastive learning on web-scale data. Through extensive experiments spanning diverse vision tasks, including detection and segmentation, we demonstrate that the proposed method maintains high representation quality. Our source code along with pre-trained model weights and training recipes is available at https://github.com/apple/corenet.
PDF293December 15, 2024