Alpha-CLIP: Um Modelo CLIP Focado Onde Você Quiser

Resumo

O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) desempenha um papel essencial na extração de informações valiosas de conteúdo de imagens em diversas tarefas. Ele alinha as modalidades textual e visual para compreender a imagem inteira, incluindo todos os detalhes, mesmo aqueles irrelevantes para tarefas específicas. No entanto, para uma compreensão mais refinada e edição controlada de imagens, torna-se crucial focar em regiões específicas de interesse, que podem ser indicadas como pontos, máscaras ou caixas por humanos ou modelos de percepção. Para atender a esses requisitos, apresentamos o Alpha-CLIP, uma versão aprimorada do CLIP com um canal alfa auxiliar para sugerir regiões atentivas e ajustada com milhões de pares de região-texto RGBA construídos. O Alpha-CLIP não apenas preserva a capacidade de reconhecimento visual do CLIP, mas também permite um controle preciso sobre a ênfase do conteúdo da imagem. Ele demonstra eficácia em várias tarefas, incluindo, mas não se limitando a, reconhecimento de mundo aberto, modelos de linguagem multimodal de grande escala e geração condicional 2D/3D. Ele tem um forte potencial para servir como uma ferramenta versátil para tarefas relacionadas a imagens.

English

Contrastive Language-Image Pre-training (CLIP) plays an essential role in extracting valuable content information from images across diverse tasks. It aligns textual and visual modalities to comprehend the entire image, including all the details, even those irrelevant to specific tasks. However, for a finer understanding and controlled editing of images, it becomes crucial to focus on specific regions of interest, which can be indicated as points, masks, or boxes by humans or perception models. To fulfill the requirements, we introduce Alpha-CLIP, an enhanced version of CLIP with an auxiliary alpha channel to suggest attentive regions and fine-tuned with constructed millions of RGBA region-text pairs. Alpha-CLIP not only preserves the visual recognition ability of CLIP but also enables precise control over the emphasis of image contents. It demonstrates effectiveness in various tasks, including but not limited to open-world recognition, multimodal large language models, and conditional 2D / 3D generation. It has a strong potential to serve as a versatile tool for image-related tasks.

Alpha-CLIP: Um Modelo CLIP Focado Onde Você Quiser

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

Resumo

Support