Alpha-CLIP: Een CLIP-model dat zich richt op waar jij maar wilt
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
December 6, 2023
Auteurs: Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Contrastive Language-Image Pre-training (CLIP) speelt een essentiële rol in het extraheren van waardevolle inhoudsinformatie uit afbeeldingen voor diverse taken. Het brengt tekstuele en visuele modaliteiten op één lijn om het gehele beeld te begrijpen, inclusief alle details, zelfs die welke niet relevant zijn voor specifieke taken. Voor een fijnere interpretatie en gecontroleerde bewerking van afbeeldingen is het echter cruciaal om te focussen op specifieke interessegebieden, die door mensen of perceptiemodellen kunnen worden aangegeven als punten, maskers of vakken. Om aan deze vereisten te voldoen, introduceren we Alpha-CLIP, een verbeterde versie van CLIP met een aanvullende alfakanaal om aandachtgebieden aan te geven en afgestemd op miljoenen geconstrueerde RGBA gebied-tekst paren. Alpha-CLIP behoudt niet alleen de visuele herkenningscapaciteit van CLIP, maar maakt ook precieze controle mogelijk over de nadruk van beeldinhoud. Het toont effectiviteit in verschillende taken, waaronder maar niet beperkt tot open-wereldherkenning, multimodale grote taalmodellen en conditionele 2D/3D-generatie. Het heeft een sterk potentieel om te dienen als een veelzijdig hulpmiddel voor beeldgerelateerde taken.
English
Contrastive Language-Image Pre-training (CLIP) plays an essential role in
extracting valuable content information from images across diverse tasks. It
aligns textual and visual modalities to comprehend the entire image, including
all the details, even those irrelevant to specific tasks. However, for a finer
understanding and controlled editing of images, it becomes crucial to focus on
specific regions of interest, which can be indicated as points, masks, or boxes
by humans or perception models. To fulfill the requirements, we introduce
Alpha-CLIP, an enhanced version of CLIP with an auxiliary alpha channel to
suggest attentive regions and fine-tuned with constructed millions of RGBA
region-text pairs. Alpha-CLIP not only preserves the visual recognition ability
of CLIP but also enables precise control over the emphasis of image contents.
It demonstrates effectiveness in various tasks, including but not limited to
open-world recognition, multimodal large language models, and conditional 2D /
3D generation. It has a strong potential to serve as a versatile tool for
image-related tasks.