ChatPaper.aiChatPaper

CosmoCLIP : Généralisation des grands modèles vision-langage pour l'imagerie astronomique

CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

July 10, 2024
Auteurs: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI

Résumé

Les modèles existants d'apprentissage contrastif vision-texte améliorent la transférabilité des représentations et permettent des prédictions zero-shot en alignant les embeddings d'images et de légendes associées tout en éloignant les paires non liées. Cependant, les ensembles de données d'images et d'étiquettes astronomiques sont nettement plus petits que les ensembles d'images et d'étiquettes générales disponibles sur Internet. Nous présentons CosmoCLIP, un cadre d'apprentissage contrastif image-texte astronomique finement ajusté à partir du modèle CLIP pré-entraîné, utilisant des légendes basées sur SpaceNet et BLIP. SpaceNet, obtenu via FLARE, comprend environ 13 000 images optimalement distribuées, tandis que BLIP agit comme un extracteur de connaissances riche. Les sémantiques riches dérivées de ces descriptions SpaceNet et BLIP, lorsqu'elles sont apprises de manière contrastive, permettent à CosmoCLIP d'atteindre une généralisation supérieure sur diverses tâches intra-domaines et extra-domaines. Nos résultats démontrent que CosmoCLIP est un cadre simple mais puissant, surpassant significativement CLIP dans les tâches de classification zero-shot et de recherche image-texte.
English
Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.

Summary

AI-Generated Summary

PDF71November 28, 2024