ChatPaper.aiChatPaper

CosmoCLIP: 天文学画像向け大規模視覚言語モデルの汎用化

CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

July 10, 2024
著者: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI

要旨

既存の視覚-テキスト対比学習モデルは、ペアとなった画像とキャプションの埋め込みを一致させ、無関係なペアを遠ざけることで、表現の転移性を向上させ、ゼロショット予測をサポートします。しかし、天文画像とラベルのデータセットは、インターネットから入手可能な一般的な画像とラベルのデータセットに比べて非常に小規模です。本論文では、事前学習済みのCLIPモデルをSpaceNetとBLIPベースのキャプションを用いて精密にファインチューニングした天文画像-テキスト対比学習フレームワークであるCosmoCLIPを紹介します。SpaceNetはFLAREを通じて取得され、約13,000枚の最適に分布した画像で構成されています。一方、BLIPは豊富な知識抽出器として機能します。このSpaceNetとBLIPの記述から得られる豊富な意味情報を対比的に学習することで、CosmoCLIPは様々なドメイン内およびドメイン外のタスクにおいて優れた汎化性能を発揮します。我々の結果は、CosmoCLIPがシンプルでありながら強力なフレームワークであり、ゼロショット分類や画像-テキスト検索タスクにおいてCLIPを大幅に上回る性能を示すことを実証しています。
English
Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.

Summary

AI-Generated Summary

PDF71November 28, 2024