CatLIP: Precisión de reconocimiento visual al nivel de CLIP con un preentrenamiento 2.7 veces más rápido en datos de imagen-texto a escala web.CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster
Pre-training on Web-scale Image-Text Data
El aprendizaje contrastivo ha surgido como un método transformador para aprender representaciones visuales efectivas mediante la alineación de incrustaciones de imágenes y texto. Sin embargo, el cálculo de similitud por pares en la función de pérdida contrastiva entre pares de imágenes y texto presenta desafíos computacionales. Este artículo presenta un novedoso preentrenamiento débilmente supervisado de modelos de visión en datos de imagen-texto a escala web. El método propuesto reformula el preentrenamiento en datos de imagen-texto como una tarea de clasificación. En consecuencia, elimina la necesidad de cálculos de similitud por pares en la pérdida contrastiva, logrando una notable aceleración de 2.7 veces en la velocidad de entrenamiento en comparación con el aprendizaje contrastivo en datos a escala web. A través de extensos experimentos que abarcan diversas tareas de visión, incluyendo detección y segmentación, demostramos que el método propuesto mantiene una alta calidad de representación. Nuestro código fuente, junto con los pesos de los modelos preentrenados y las recetas de entrenamiento, está disponible en https://github.com/apple/corenet.