ChatPaper.aiChatPaper

CosmoCLIP: Обобщение крупных моделей видео-языка для астрономического изображения

CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

July 10, 2024
Авторы: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI

Аннотация

Существующие модели контрастного обучения вид-текст улучшают передачу представлений и поддерживают предсказание без обучения путем сопоставления вложений парных изображений и подписей, одновременно отталкивая несвязанные пары. Однако астрономические наборы данных изображений и меток значительно меньше по сравнению с общедоступными наборами данных изображений и меток в Интернете. Мы представляем CosmoCLIP, астрономическую модель контрастного обучения вид-текст, точно настроенную на предварительно обученной модели CLIP с использованием описаний SpaceNet и BLIP. SpaceNet, полученный через FLARE, состоит из ~13 тыс. оптимально распределенных изображений, в то время как BLIP действует как богатый экстрактор знаний. Богатая семантика, извлеченная из описаний SpaceNet и BLIP, когда она изучается контрастно, позволяет CosmoCLIP достичь превосходной обобщаемости по различным задачам внутри и вне области. Наши результаты показывают, что CosmoCLIP является простой, но мощной моделью, значительно превосходящей CLIP в задачах классификации без обучения и поиска изображений-текста.
English
Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.

Summary

AI-Generated Summary

PDF71November 28, 2024