ChatPaper.aiChatPaper

CosmoCLIP: Verallgemeinerung großer Bild-Sprach-Modelle für astronomische Bildgebung

CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

July 10, 2024
Autoren: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI

Zusammenfassung

Bestehende Kontrastive Lernmodelle für Bild-Text-Vision verbessern die Repräsentationsübertragbarkeit und unterstützen die Vorhersage ohne Beispiele, indem sie gepaarte Bild- und Bildunterschriftseinbettungen abgleichen und nicht zusammengehörende Paare auseinanderdrücken. Astronomische Bild-Label-Datensätze sind jedoch im Vergleich zu allgemeinen Bild- und Label-Datensätzen aus dem Internet signifikant kleiner. Wir stellen CosmoCLIP vor, ein astronomisches Bild-Text-Kontrastivlern-Framework, das präzise auf das vortrainierte CLIP-Modell unter Verwendung von SpaceNet und BLIP-basierten Bildunterschriften feinabgestimmt ist. SpaceNet, erreicht über FLARE, besteht aus ~13k optimal verteilten Bildern, während BLIP als reicher Wissensextraktor fungiert. Die reichen Semantiken, die aus diesen SpaceNet- und BLIP-Beschreibungen abgeleitet werden und kontrastiv gelernt werden, ermöglichen es CosmoCLIP, eine überlegene Verallgemeinerung über verschiedene in-domain und out-of-domain Aufgaben zu erreichen. Unsere Ergebnisse zeigen, dass CosmoCLIP ein einfaches, aber leistungsstarkes Framework ist, das CLIP signifikant bei der Klassifizierung ohne Beispiele und bei Bild-Text-Abrufaufgaben übertrifft.
English
Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.

Summary

AI-Generated Summary

PDF71November 28, 2024