Contrastieve Gelokaliseerde Taal-Afbeelding Vooraf Training
Contrastive Localized Language-Image Pre-Training
October 3, 2024
Auteurs: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI
Samenvatting
Contrastive Language-Image Pre-training (CLIP) is een bejubelde methode voor het trainen van visuele encoders om afbeelding/tekst representaties te genereren die verschillende toepassingen vergemakkelijken. Onlangs is CLIP wijdverspreid aangenomen als de visuele basis van multimodale grote taalmodellen (MLLMs) om afbeeldingsinvoer te verbinden voor taalinteracties. Het succes van CLIP als een visueel-taal basismodel berust op het afstemmen van web-gecrawld ruisige tekstannotaties op afbeeldingsniveaus. Desalniettemin kunnen dergelijke criteria ontoereikend zijn voor downstream taken die fijnmazige visuele representaties vereisen, vooral wanneer regioniveau begrip veeleisend is voor MLLMs. In dit artikel verbeteren we de lokaliseringscapaciteit van CLIP met verschillende vooruitgangen. We stellen een pre-trainingsmethode voor genaamd Contrastive Localized Language-Image Pre-training (CLOC) door CLIP aan te vullen met regio-tekst contrastieve verlies en modules. We formuleren een nieuw concept, promptbare embeddings, waarvan de encoder afbeelding embeddings produceert die gemakkelijk te transformeren zijn naar regio representaties gegeven ruimtelijke hints. Om grootschalige pre-training te ondersteunen, ontwerpen we een visueel-verrijkt en ruimtelijk-gelokaliseerd bijschriftkader om effectief regio-tekst pseudo-labels op schaal te genereren. Door op te schalen naar miljarden geannoteerde afbeeldingen, maakt CLOC hoogwaardige regionale embeddings mogelijk voor taken zoals afbeeldingsregioherkenning en -terugvinding, en kan het een plug-in vervanging zijn van CLIP om MLLMs te verbeteren, vooral bij verwijzings- en grondingstaken.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method
for training vision encoders to generate image/text representations
facilitating various applications. Recently, CLIP has been widely adopted as
the vision backbone of multimodal large language models (MLLMs) to connect
image inputs for language interactions. The success of CLIP as a
vision-language foundation model relies on aligning web-crawled noisy text
annotations at image levels. Nevertheless, such criteria may become
insufficient for downstream tasks in need of fine-grained vision
representations, especially when region-level understanding is demanding for
MLLMs. In this paper, we improve the localization capability of CLIP with
several advances. We propose a pre-training method called Contrastive Localized
Language-Image Pre-training (CLOC) by complementing CLIP with region-text
contrastive loss and modules. We formulate a new concept, promptable
embeddings, of which the encoder produces image embeddings easy to transform
into region representations given spatial hints. To support large-scale
pre-training, we design a visually-enriched and spatially-localized captioning
framework to effectively generate region-text pseudo-labels at scale. By
scaling up to billions of annotated images, CLOC enables high-quality regional
embeddings for image region recognition and retrieval tasks, and can be a
drop-in replacement of CLIP to enhance MLLMs, especially on referring and
grounding tasks.Summary
AI-Generated Summary