Entrenamiento previo localizado contrastivo de lenguaje-imagen.
Contrastive Localized Language-Image Pre-Training
October 3, 2024
Autores: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI
Resumen
El Pre-entrenamiento Contrastivo de Lenguaje-Imagen (CLIP) ha sido un método aclamado para entrenar codificadores de visión con el fin de generar representaciones de imágenes/texto que facilitan diversas aplicaciones. Recientemente, CLIP ha sido ampliamente adoptado como la columna vertebral visual de modelos de lenguaje multimodales grandes (MLLMs) para conectar entradas de imágenes en interacciones de lenguaje. El éxito de CLIP como modelo base de visión-lenguaje depende de alinear anotaciones de texto ruidosas extraídas de la web a niveles de imagen. Sin embargo, tales criterios pueden resultar insuficientes para tareas posteriores que requieren representaciones de visión detalladas, especialmente cuando la comprensión a nivel de región es exigente para MLLMs. En este documento, mejoramos la capacidad de localización de CLIP con varios avances. Proponemos un método de pre-entrenamiento llamado Pre-entrenamiento Contrastivo Localizado de Lenguaje-Imagen (CLOC) al complementar CLIP con pérdida contrastiva y módulos de región-texto. Formulamos un nuevo concepto, incrustaciones promptables, cuyo codificador produce incrustaciones de imagen fáciles de transformar en representaciones de región dadas pistas espaciales. Para respaldar el pre-entrenamiento a gran escala, diseñamos un marco de titulación enriquecido visualmente y localizado espacialmente para generar eficazmente pseudoetiquetas de región-texto a escala. Al escalar a miles de millones de imágenes anotadas, CLOC permite incrustaciones regionales de alta calidad para tareas de reconocimiento y recuperación de regiones de imágenes, y puede ser un reemplazo directo de CLIP para mejorar MLLMs, especialmente en tareas de referencia y anclaje.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method
for training vision encoders to generate image/text representations
facilitating various applications. Recently, CLIP has been widely adopted as
the vision backbone of multimodal large language models (MLLMs) to connect
image inputs for language interactions. The success of CLIP as a
vision-language foundation model relies on aligning web-crawled noisy text
annotations at image levels. Nevertheless, such criteria may become
insufficient for downstream tasks in need of fine-grained vision
representations, especially when region-level understanding is demanding for
MLLMs. In this paper, we improve the localization capability of CLIP with
several advances. We propose a pre-training method called Contrastive Localized
Language-Image Pre-training (CLOC) by complementing CLIP with region-text
contrastive loss and modules. We formulate a new concept, promptable
embeddings, of which the encoder produces image embeddings easy to transform
into region representations given spatial hints. To support large-scale
pre-training, we design a visually-enriched and spatially-localized captioning
framework to effectively generate region-text pseudo-labels at scale. By
scaling up to billions of annotated images, CLOC enables high-quality regional
embeddings for image region recognition and retrieval tasks, and can be a
drop-in replacement of CLIP to enhance MLLMs, especially on referring and
grounding tasks.Summary
AI-Generated Summary