ChatPaper.aiChatPaper

CosmoCLIP: 천문학적 이미징을 위한 대규모 시각-언어 모델의 일반화

CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

July 10, 2024
저자: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI

초록

기존의 비전-텍스트 대조 학습 모델은 짝을 이루는 이미지와 캡션 임베딩을 매칭하면서 관련 없는 쌍을 멀리 밀어내는 방식으로 표현 전이성을 향상시키고 제로샷 예측을 지원합니다. 그러나 천문학적 이미지-레이블 데이터셋은 인터넷에서 얻을 수 있는 일반적인 이미지 및 레이블 데이터셋에 비해 상당히 작습니다. 우리는 사전 훈련된 CLIP 모델을 SpaceNet과 BLIP 기반 캡션을 사용해 정밀하게 미세 조정한 천문학적 이미지-텍스트 대조 학습 프레임워크인 CosmoCLIP을 소개합니다. FLARE를 통해 얻은 SpaceNet은 약 13,000개의 최적 분포 이미지로 구성되며, BLIP은 풍부한 지식 추출기 역할을 합니다. 이 SpaceNet과 BLIP 설명에서 도출된 풍부한 의미론을 대조적으로 학습함으로써 CosmoCLIP은 다양한 도메인 내 및 도메인 외 작업에서 우수한 일반화 성능을 달성할 수 있습니다. 우리의 결과는 CosmoCLIP이 간단하면서도 강력한 프레임워크로서, 제로샷 분류 및 이미지-텍스트 검색 작업에서 CLIP을 크게 능가함을 보여줍니다.
English
Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.

Summary

AI-Generated Summary

PDF71November 28, 2024