Contrastieve Gelokaliseerde Taal-Afbeelding Vooraf Training

Samenvatting

Contrastive Language-Image Pre-training (CLIP) is een bejubelde methode voor het trainen van visuele encoders om afbeelding/tekst representaties te genereren die verschillende toepassingen vergemakkelijken. Onlangs is CLIP wijdverspreid aangenomen als de visuele basis van multimodale grote taalmodellen (MLLMs) om afbeeldingsinvoer te verbinden voor taalinteracties. Het succes van CLIP als een visueel-taal basismodel berust op het afstemmen van web-gecrawld ruisige tekstannotaties op afbeeldingsniveaus. Desalniettemin kunnen dergelijke criteria ontoereikend zijn voor downstream taken die fijnmazige visuele representaties vereisen, vooral wanneer regioniveau begrip veeleisend is voor MLLMs. In dit artikel verbeteren we de lokaliseringscapaciteit van CLIP met verschillende vooruitgangen. We stellen een pre-trainingsmethode voor genaamd Contrastive Localized Language-Image Pre-training (CLOC) door CLIP aan te vullen met regio-tekst contrastieve verlies en modules. We formuleren een nieuw concept, promptbare embeddings, waarvan de encoder afbeelding embeddings produceert die gemakkelijk te transformeren zijn naar regio representaties gegeven ruimtelijke hints. Om grootschalige pre-training te ondersteunen, ontwerpen we een visueel-verrijkt en ruimtelijk-gelokaliseerd bijschriftkader om effectief regio-tekst pseudo-labels op schaal te genereren. Door op te schalen naar miljarden geannoteerde afbeeldingen, maakt CLOC hoogwaardige regionale embeddings mogelijk voor taken zoals afbeeldingsregioherkenning en -terugvinding, en kan het een plug-in vervanging zijn van CLIP om MLLMs te verbeteren, vooral bij verwijzings- en grondingstaken.

English

Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.

Contrastieve Gelokaliseerde Taal-Afbeelding Vooraf Training

Contrastive Localized Language-Image Pre-Training

Samenvatting

Support