ChatPaper.aiChatPaper

Контрастное локализованное предварительное обучение языка и изображений

Contrastive Localized Language-Image Pre-Training

October 3, 2024
Авторы: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI

Аннотация

Контрастное предварительное обучение язык-изображение (CLIP) стало популярным методом обучения визуальных кодировщиков для генерации изображений/текста, облегчающего различные приложения. Недавно CLIP был широко принят в качестве визионной основы мультимодельных больших языковых моделей (MLLMs) для связи изображений с языковыми взаимодействиями. Успех CLIP в качестве модели визуально-языкового фундамента зависит от согласования веб-поисковых зашумленных текстовых аннотаций на уровне изображения. Тем не менее, такие критерии могут оказаться недостаточными для последующих задач, требующих детализированных визуальных представлений, особенно когда понимание на уровне области требует больших усилий для MLLMs. В данной работе мы улучшаем возможности локализации CLIP с помощью нескольких нововведений. Мы предлагаем метод предварительного обучения под названием Контрастное локализованное предварительное обучение язык-изображение (CLOC), дополняя CLIP контрастной потерей и модулями для области текста. Мы формулируем новое понятие - встраиваемые подсказки, с помощью которых кодировщик создает встраиваемые изображения, легко преобразуемые в представления области при наличии пространственных подсказок. Для поддержки масштабного предварительного обучения мы разрабатываем визуально насыщенную и пространственно локализованную структуру подписей для эффективной генерации псевдо-меток области текста в масштабе. Увеличивая объем до миллиардов аннотированных изображений, CLOC обеспечивает высококачественные региональные встраивания для задач распознавания и поиска областей изображений, и может быть применен в качестве замены CLIP для улучшения MLLMs, особенно в задачах ссылок и привязок.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.

Summary

AI-Generated Summary

PDF383November 16, 2024