CosmoCLIP: Generalizando Modelos de Visión-Lenguaje Grandes para Imágenes Astronómicas
CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
July 10, 2024
Autores: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI
Resumen
Los modelos existentes de aprendizaje contrastivo visión-texto mejoran la transferibilidad de representaciones y respaldan la predicción de cero disparando emparejamientos de incrustaciones de imágenes y subtítulos, mientras separan los pares no relacionados. Sin embargo, los conjuntos de datos de imágenes-etiquetas astronómicas son significativamente más pequeños en comparación con los conjuntos de datos generales de imágenes y etiquetas disponibles en internet. Presentamos CosmoCLIP, un marco de aprendizaje contrastivo imagen-texto astronómico afinado con precisión en el modelo preentrenado CLIP utilizando SpaceNet y descripciones basadas en BLIP. SpaceNet, obtenido a través de FLARE, consta de aproximadamente ~13k imágenes distribuidas de manera óptima, mientras que BLIP actúa como un extractor de conocimiento rico. Las ricas semánticas derivadas de estas descripciones de SpaceNet y BLIP, cuando se aprenden de manera contrastiva, permiten que CosmoCLIP logre una generalización superior en diversas tareas dentro y fuera del dominio. Nuestros resultados demuestran que CosmoCLIP es un marco sencillo pero potente, superando significativamente a CLIP en clasificación de cero disparo y tareas de recuperación de imagen-texto.
English
Existing vision-text contrastive learning models enhance representation
transferability and support zero-shot prediction by matching paired image and
caption embeddings while pushing unrelated pairs apart. However, astronomical
image-label datasets are significantly smaller compared to general image and
label datasets available from the internet. We introduce CosmoCLIP, an
astronomical image-text contrastive learning framework precisely fine-tuned on
the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet,
attained via FLARE, constitutes ~13k optimally distributed images, while BLIP
acts as a rich knowledge extractor. The rich semantics derived from this
SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to
achieve superior generalization across various in-domain and out-of-domain
tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful
framework, significantly outperforming CLIP in zero-shot classification and
image-text retrieval tasks.Summary
AI-Generated Summary