Улучшение детального понимания в предварительном обучении на изображениях и текстах

Аннотация

Мы представляем SPARse Fine-grained Contrastive Alignment (SPARC) — простой метод предварительного обучения более детализированных мультимодальных представлений на основе пар изображение-текст. Учитывая, что несколько фрагментов изображения часто соответствуют отдельным словам, мы предлагаем изучать группировку фрагментов изображения для каждого токена в подписи. Для этого мы используем разреженную метрику сходства между фрагментами изображения и языковыми токенами и вычисляем для каждого токена языково-группированное визуальное представление как взвешенное среднее фрагментов. Затем токен и языково-группированное визуальное представление сравниваются с помощью детализированной поточечной функции потерь, которая зависит только от отдельных примеров и не требует других примеров из батча в качестве негативов. Это позволяет изучать более детальную информацию с минимальными вычислительными затратами. SPARC объединяет эту детализированную функцию потерь с контрастивной функцией потерь между глобальными представлениями изображения и текста, чтобы обучать представления, которые одновременно кодируют как глобальную, так и локальную информацию. Мы тщательно оцениваем предложенный метод и демонстрируем улучшенную производительность по сравнению с конкурирующими подходами как на задачах уровня изображения, зависящих от грубозернистой информации (например, классификация), так и на задачах уровня регионов, требующих детализированной информации (например, поиск, обнаружение объектов и сегментация). Более того, SPARC улучшает достоверность моделей и генерацию подписей в базовых моделях обработки визуально-языковых данных.

English

We introduce SPARse Fine-grained Contrastive Alignment (SPARC), a simple method for pretraining more fine-grained multimodal representations from image-text pairs. Given that multiple image patches often correspond to single words, we propose to learn a grouping of image patches for every token in the caption. To achieve this, we use a sparse similarity metric between image patches and language tokens and compute for each token a language-grouped vision embedding as the weighted average of patches. The token and language-grouped vision embeddings are then contrasted through a fine-grained sequence-wise loss that only depends on individual samples and does not require other batch samples as negatives. This enables more detailed information to be learned in a computationally inexpensive manner. SPARC combines this fine-grained loss with a contrastive loss between global image and text embeddings to learn representations that simultaneously encode global and local information. We thoroughly evaluate our proposed method and show improved performance over competing approaches both on image-level tasks relying on coarse-grained information, e.g. classification, as well as region-level tasks relying on fine-grained information, e.g. retrieval, object detection, and segmentation. Moreover, SPARC improves model faithfulness and captioning in foundational vision-language models.

Улучшение детального понимания в предварительном обучении на изображениях и текстах

Improving fine-grained understanding in image-text pre-training

Аннотация

Support