ChatPaper.aiChatPaper

CosmoCLIP: Generalizzazione di Modelli di Grande Scala Visione-Linguaggio per l'Imaging Astronomico

CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

July 10, 2024
Autori: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI

Abstract

I modelli esistenti di apprendimento contrastivo visione-testo migliorano la trasferibilità delle rappresentazioni e supportano la previsione zero-shot abbinando gli embedding di immagini e didascalie mentre allontanano le coppie non correlate. Tuttavia, i dataset di immagini ed etichette astronomiche sono significativamente più piccoli rispetto ai dataset generali di immagini ed etichette disponibili su internet. Introduciamo CosmoCLIP, un framework di apprendimento contrastivo immagine-testo astronomico precisamente ottimizzato sul modello CLIP pre-addestrato utilizzando didascalie basate su SpaceNet e BLIP. SpaceNet, ottenuto tramite FLARE, costituisce circa 13k immagini distribuite in modo ottimale, mentre BLIP funge da estrattore di conoscenza ricco. La semantica ricavata da queste descrizioni di SpaceNet e BLIP, quando appresa in modo contrastivo, consente a CosmoCLIP di ottenere una generalizzazione superiore in vari task in-dominio e out-of-dominio. I nostri risultati dimostrano che CosmoCLIP è un framework semplice ma potente, che supera significativamente CLIP nei task di classificazione zero-shot e di recupero immagine-testo.
English
Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.
PDF71November 28, 2024