CosmoCLIP : Généralisation des grands modèles vision-langage pour l'imagerie astronomique
CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
July 10, 2024
Auteurs: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI
Résumé
Les modèles existants d'apprentissage contrastif vision-texte améliorent la transférabilité des représentations et permettent des prédictions zero-shot en alignant les embeddings d'images et de légendes associées tout en éloignant les paires non liées. Cependant, les ensembles de données d'images et d'étiquettes astronomiques sont nettement plus petits que les ensembles d'images et d'étiquettes générales disponibles sur Internet. Nous présentons CosmoCLIP, un cadre d'apprentissage contrastif image-texte astronomique finement ajusté à partir du modèle CLIP pré-entraîné, utilisant des légendes basées sur SpaceNet et BLIP. SpaceNet, obtenu via FLARE, comprend environ 13 000 images optimalement distribuées, tandis que BLIP agit comme un extracteur de connaissances riche. Les sémantiques riches dérivées de ces descriptions SpaceNet et BLIP, lorsqu'elles sont apprises de manière contrastive, permettent à CosmoCLIP d'atteindre une généralisation supérieure sur diverses tâches intra-domaines et extra-domaines. Nos résultats démontrent que CosmoCLIP est un cadre simple mais puissant, surpassant significativement CLIP dans les tâches de classification zero-shot et de recherche image-texte.
English
Existing vision-text contrastive learning models enhance representation
transferability and support zero-shot prediction by matching paired image and
caption embeddings while pushing unrelated pairs apart. However, astronomical
image-label datasets are significantly smaller compared to general image and
label datasets available from the internet. We introduce CosmoCLIP, an
astronomical image-text contrastive learning framework precisely fine-tuned on
the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet,
attained via FLARE, constitutes ~13k optimally distributed images, while BLIP
acts as a rich knowledge extractor. The rich semantics derived from this
SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to
achieve superior generalization across various in-domain and out-of-domain
tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful
framework, significantly outperforming CLIP in zero-shot classification and
image-text retrieval tasks.Summary
AI-Generated Summary