CosmoCLIP: Generalisatie van Grote Visueel-Taalmodellen voor Astronomische Beeldvorming
CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
July 10, 2024
Auteurs: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI
Samenvatting
Bestaande vision-text contrastive learning-modellen verbeteren de overdraagbaarheid van representaties en ondersteunen zero-shot voorspelling door gekoppelde afbeelding- en bijschrift-embeddingen op elkaar af te stemmen, terwijl niet-gerelateerde paren uit elkaar worden geduwd. Echter, astronomische afbeelding-label datasets zijn aanzienlijk kleiner in vergelijking met algemene afbeelding- en label datasets die beschikbaar zijn op het internet. Wij introduceren CosmoCLIP, een astronomisch beeld-tekst contrastief leerframework dat precies is afgestemd op het vooraf getrainde CLIP-model met behulp van SpaceNet en BLIP-gebaseerde bijschriften. SpaceNet, verkregen via FLARE, bestaat uit ~13k optimaal verdeelde afbeeldingen, terwijl BLIP fungeert als een rijke kennis-extractor. De rijke semantiek afgeleid van deze SpaceNet en BLIP-beschrijvingen, wanneer contrastief geleerd, stelt CosmoCLIP in staat om superieure generalisatie te bereiken over verschillende in-domein en out-of-domein taken. Onze resultaten tonen aan dat CosmoCLIP een eenvoudig maar krachtig framework is, dat CLIP significant overtreft in zero-shot classificatie en beeld-tekst retrieval taken.
English
Existing vision-text contrastive learning models enhance representation
transferability and support zero-shot prediction by matching paired image and
caption embeddings while pushing unrelated pairs apart. However, astronomical
image-label datasets are significantly smaller compared to general image and
label datasets available from the internet. We introduce CosmoCLIP, an
astronomical image-text contrastive learning framework precisely fine-tuned on
the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet,
attained via FLARE, constitutes ~13k optimally distributed images, while BLIP
acts as a rich knowledge extractor. The rich semantics derived from this
SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to
achieve superior generalization across various in-domain and out-of-domain
tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful
framework, significantly outperforming CLIP in zero-shot classification and
image-text retrieval tasks.