CatLIP: Precisión de reconocimiento visual al nivel de CLIP con un preentrenamiento 2.7 veces más rápido en datos de imagen-texto a escala web.

Resumen

El aprendizaje contrastivo ha surgido como un método transformador para aprender representaciones visuales efectivas mediante la alineación de incrustaciones de imágenes y texto. Sin embargo, el cálculo de similitud por pares en la función de pérdida contrastiva entre pares de imágenes y texto presenta desafíos computacionales. Este artículo presenta un novedoso preentrenamiento débilmente supervisado de modelos de visión en datos de imagen-texto a escala web. El método propuesto reformula el preentrenamiento en datos de imagen-texto como una tarea de clasificación. En consecuencia, elimina la necesidad de cálculos de similitud por pares en la pérdida contrastiva, logrando una notable aceleración de 2.7 veces en la velocidad de entrenamiento en comparación con el aprendizaje contrastivo en datos a escala web. A través de extensos experimentos que abarcan diversas tareas de visión, incluyendo detección y segmentación, demostramos que el método propuesto mantiene una alta calidad de representación. Nuestro código fuente, junto con los pesos de los modelos preentrenados y las recetas de entrenamiento, está disponible en https://github.com/apple/corenet.

English

Contrastive learning has emerged as a transformative method for learning effective visual representations through the alignment of image and text embeddings. However, pairwise similarity computation in contrastive loss between image and text pairs poses computational challenges. This paper presents a novel weakly supervised pre-training of vision models on web-scale image-text data. The proposed method reframes pre-training on image-text data as a classification task. Consequently, it eliminates the need for pairwise similarity computations in contrastive loss, achieving a remarkable 2.7times acceleration in training speed compared to contrastive learning on web-scale data. Through extensive experiments spanning diverse vision tasks, including detection and segmentation, we demonstrate that the proposed method maintains high representation quality. Our source code along with pre-trained model weights and training recipes is available at https://github.com/apple/corenet.

CatLIP: Precisión de reconocimiento visual al nivel de CLIP con un preentrenamiento 2.7 veces más rápido en datos de imagen-texto a escala web.

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

Resumen

Support