CosmoCLIP: Generalizzazione di Modelli di Grande Scala Visione-Linguaggio per l'Imaging Astronomico
CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
July 10, 2024
Autori: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI
Abstract
I modelli esistenti di apprendimento contrastivo visione-testo migliorano la trasferibilità delle rappresentazioni e supportano la previsione zero-shot abbinando gli embedding di immagini e didascalie mentre allontanano le coppie non correlate. Tuttavia, i dataset di immagini ed etichette astronomiche sono significativamente più piccoli rispetto ai dataset generali di immagini ed etichette disponibili su internet. Introduciamo CosmoCLIP, un framework di apprendimento contrastivo immagine-testo astronomico precisamente ottimizzato sul modello CLIP pre-addestrato utilizzando didascalie basate su SpaceNet e BLIP. SpaceNet, ottenuto tramite FLARE, costituisce circa 13k immagini distribuite in modo ottimale, mentre BLIP funge da estrattore di conoscenza ricco. La semantica ricavata da queste descrizioni di SpaceNet e BLIP, quando appresa in modo contrastivo, consente a CosmoCLIP di ottenere una generalizzazione superiore in vari task in-dominio e out-of-dominio. I nostri risultati dimostrano che CosmoCLIP è un framework semplice ma potente, che supera significativamente CLIP nei task di classificazione zero-shot e di recupero immagine-testo.
English
Existing vision-text contrastive learning models enhance representation
transferability and support zero-shot prediction by matching paired image and
caption embeddings while pushing unrelated pairs apart. However, astronomical
image-label datasets are significantly smaller compared to general image and
label datasets available from the internet. We introduce CosmoCLIP, an
astronomical image-text contrastive learning framework precisely fine-tuned on
the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet,
attained via FLARE, constitutes ~13k optimally distributed images, while BLIP
acts as a rich knowledge extractor. The rich semantics derived from this
SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to
achieve superior generalization across various in-domain and out-of-domain
tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful
framework, significantly outperforming CLIP in zero-shot classification and
image-text retrieval tasks.