Улучшение детального понимания в предварительном обучении на изображениях и текстах
Improving fine-grained understanding in image-text pre-training
January 18, 2024
Авторы: Ioana Bica, Anastasija Ilić, Matthias Bauer, Goker Erdogan, Matko Bošnjak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer, Charles Blundell, Razvan Pascanu, Jovana Mitrović
cs.AI
Аннотация
Мы представляем SPARse Fine-grained Contrastive Alignment (SPARC) — простой метод предварительного обучения более детализированных мультимодальных представлений на основе пар изображение-текст. Учитывая, что несколько фрагментов изображения часто соответствуют отдельным словам, мы предлагаем изучать группировку фрагментов изображения для каждого токена в подписи. Для этого мы используем разреженную метрику сходства между фрагментами изображения и языковыми токенами и вычисляем для каждого токена языково-группированное визуальное представление как взвешенное среднее фрагментов. Затем токен и языково-группированное визуальное представление сравниваются с помощью детализированной поточечной функции потерь, которая зависит только от отдельных примеров и не требует других примеров из батча в качестве негативов. Это позволяет изучать более детальную информацию с минимальными вычислительными затратами. SPARC объединяет эту детализированную функцию потерь с контрастивной функцией потерь между глобальными представлениями изображения и текста, чтобы обучать представления, которые одновременно кодируют как глобальную, так и локальную информацию. Мы тщательно оцениваем предложенный метод и демонстрируем улучшенную производительность по сравнению с конкурирующими подходами как на задачах уровня изображения, зависящих от грубозернистой информации (например, классификация), так и на задачах уровня регионов, требующих детализированной информации (например, поиск, обнаружение объектов и сегментация). Более того, SPARC улучшает достоверность моделей и генерацию подписей в базовых моделях обработки визуально-языковых данных.
English
We introduce SPARse Fine-grained Contrastive Alignment (SPARC), a simple
method for pretraining more fine-grained multimodal representations from
image-text pairs. Given that multiple image patches often correspond to single
words, we propose to learn a grouping of image patches for every token in the
caption. To achieve this, we use a sparse similarity metric between image
patches and language tokens and compute for each token a language-grouped
vision embedding as the weighted average of patches. The token and
language-grouped vision embeddings are then contrasted through a fine-grained
sequence-wise loss that only depends on individual samples and does not require
other batch samples as negatives. This enables more detailed information to be
learned in a computationally inexpensive manner. SPARC combines this
fine-grained loss with a contrastive loss between global image and text
embeddings to learn representations that simultaneously encode global and local
information. We thoroughly evaluate our proposed method and show improved
performance over competing approaches both on image-level tasks relying on
coarse-grained information, e.g. classification, as well as region-level tasks
relying on fine-grained information, e.g. retrieval, object detection, and
segmentation. Moreover, SPARC improves model faithfulness and captioning in
foundational vision-language models.