Alpha-CLIP: Um Modelo CLIP Focado Onde Você Quiser
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
December 6, 2023
Autores: Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) desempenha um papel essencial na extração de informações valiosas de conteúdo de imagens em diversas tarefas. Ele alinha as modalidades textual e visual para compreender a imagem inteira, incluindo todos os detalhes, mesmo aqueles irrelevantes para tarefas específicas. No entanto, para uma compreensão mais refinada e edição controlada de imagens, torna-se crucial focar em regiões específicas de interesse, que podem ser indicadas como pontos, máscaras ou caixas por humanos ou modelos de percepção. Para atender a esses requisitos, apresentamos o Alpha-CLIP, uma versão aprimorada do CLIP com um canal alfa auxiliar para sugerir regiões atentivas e ajustada com milhões de pares de região-texto RGBA construídos. O Alpha-CLIP não apenas preserva a capacidade de reconhecimento visual do CLIP, mas também permite um controle preciso sobre a ênfase do conteúdo da imagem. Ele demonstra eficácia em várias tarefas, incluindo, mas não se limitando a, reconhecimento de mundo aberto, modelos de linguagem multimodal de grande escala e geração condicional 2D/3D. Ele tem um forte potencial para servir como uma ferramenta versátil para tarefas relacionadas a imagens.
English
Contrastive Language-Image Pre-training (CLIP) plays an essential role in
extracting valuable content information from images across diverse tasks. It
aligns textual and visual modalities to comprehend the entire image, including
all the details, even those irrelevant to specific tasks. However, for a finer
understanding and controlled editing of images, it becomes crucial to focus on
specific regions of interest, which can be indicated as points, masks, or boxes
by humans or perception models. To fulfill the requirements, we introduce
Alpha-CLIP, an enhanced version of CLIP with an auxiliary alpha channel to
suggest attentive regions and fine-tuned with constructed millions of RGBA
region-text pairs. Alpha-CLIP not only preserves the visual recognition ability
of CLIP but also enables precise control over the emphasis of image contents.
It demonstrates effectiveness in various tasks, including but not limited to
open-world recognition, multimodal large language models, and conditional 2D /
3D generation. It has a strong potential to serve as a versatile tool for
image-related tasks.