CosmoCLIP: Generalizando Modelos de Visão-Linguagem Grandes para Imagens Astronômicas
CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging
July 10, 2024
Autores: Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray
cs.AI
Resumo
Os modelos existentes de aprendizado contrastivo visão-texto aprimoram a transferibilidade de representação e suportam previsões sem uso de dados ao combinar embeddings em pares de imagens e legendas, enquanto afastam pares não relacionados. No entanto, os conjuntos de dados de imagens e legendas astronômicas são significativamente menores em comparação com conjuntos de dados de imagens e legendas gerais disponíveis na internet. Apresentamos o CosmoCLIP, um framework de aprendizado contrastivo imagem-texto astronômico precisamente ajustado no modelo CLIP pré-treinado usando SpaceNet e legendas baseadas em BLIP. O SpaceNet, obtido via FLARE, consiste em ~13k imagens distribuídas de forma otimizada, enquanto o BLIP atua como um extrator de conhecimento rico. As ricas semânticas derivadas dessas descrições do SpaceNet e BLIP, quando aprendidas de forma contrastiva, permitem que o CosmoCLIP alcance uma generalização superior em várias tarefas dentro e fora do domínio. Nossos resultados demonstram que o CosmoCLIP é um framework direto, porém poderoso, superando significativamente o CLIP em classificação sem uso de dados e tarefas de recuperação de imagem-texto.
English
Existing vision-text contrastive learning models enhance representation
transferability and support zero-shot prediction by matching paired image and
caption embeddings while pushing unrelated pairs apart. However, astronomical
image-label datasets are significantly smaller compared to general image and
label datasets available from the internet. We introduce CosmoCLIP, an
astronomical image-text contrastive learning framework precisely fine-tuned on
the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet,
attained via FLARE, constitutes ~13k optimally distributed images, while BLIP
acts as a rich knowledge extractor. The rich semantics derived from this
SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to
achieve superior generalization across various in-domain and out-of-domain
tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful
framework, significantly outperforming CLIP in zero-shot classification and
image-text retrieval tasks.