CatLIP: Precisión de reconocimiento visual al nivel de CLIP con un preentrenamiento 2.7 veces más rápido en datos de imagen-texto a escala web.
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data
April 24, 2024
Autores: Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, Mohammad Rastegari
cs.AI
Resumen
El aprendizaje contrastivo ha surgido como un método transformador para aprender representaciones visuales efectivas mediante la alineación de incrustaciones de imágenes y texto. Sin embargo, el cálculo de similitud por pares en la función de pérdida contrastiva entre pares de imágenes y texto presenta desafíos computacionales. Este artículo presenta un novedoso preentrenamiento débilmente supervisado de modelos de visión en datos de imagen-texto a escala web. El método propuesto reformula el preentrenamiento en datos de imagen-texto como una tarea de clasificación. En consecuencia, elimina la necesidad de cálculos de similitud por pares en la pérdida contrastiva, logrando una notable aceleración de 2.7 veces en la velocidad de entrenamiento en comparación con el aprendizaje contrastivo en datos a escala web. A través de extensos experimentos que abarcan diversas tareas de visión, incluyendo detección y segmentación, demostramos que el método propuesto mantiene una alta calidad de representación. Nuestro código fuente, junto con los pesos de los modelos preentrenados y las recetas de entrenamiento, está disponible en https://github.com/apple/corenet.
English
Contrastive learning has emerged as a transformative method for learning
effective visual representations through the alignment of image and text
embeddings. However, pairwise similarity computation in contrastive loss
between image and text pairs poses computational challenges. This paper
presents a novel weakly supervised pre-training of vision models on web-scale
image-text data. The proposed method reframes pre-training on image-text data
as a classification task. Consequently, it eliminates the need for pairwise
similarity computations in contrastive loss, achieving a remarkable 2.7times
acceleration in training speed compared to contrastive learning on web-scale
data. Through extensive experiments spanning diverse vision tasks, including
detection and segmentation, we demonstrate that the proposed method maintains
high representation quality. Our source code along with pre-trained model
weights and training recipes is available at
https://github.com/apple/corenet.