Подписи Parrot учат CLIP распознавать текст

Аннотация

Несмотря на то, что CLIP является базовой моделью для множества задач, связанных с обработкой изображений и текста, она страдает от сильной предвзятости к распознаванию текста на изображениях. Такая предвзятость заставляет модели CLIP "повторять" визуальный текст, встроенный в изображения, игнорируя при этом подлинную визуальную семантику. Мы обнаружили, что в наиболее популярном наборе данных LAION-2B, содержащем изображения и текстовые описания, подписи также часто дословно повторяют текст, встроенный в изображения. Наш анализ показывает, что около 50\% изображений содержат визуальный текст, и 90\% их подписей в той или иной степени повторяют этот текст. Основываясь на этом наблюдении, мы тщательно исследуем различные версии моделей CLIP и подтверждаем, что визуальный текст является доминирующим фактором при измерении сходства изображений и текста в стиле LAION для этих моделей. Чтобы проверить, формируют ли такие повторяющиеся подписи предвзятость к распознаванию текста, мы обучаем серию моделей CLIP на подмножествах LAION, отобранных по различным критериям, ориентированным на повторяющиеся подписи. Мы показываем, что обучение с использованием таких подписей легко формирует эту предвзятость, но вредит ожидаемому обучению визуально-языковым представлениям в моделях CLIP. Это говорит о том, что необходимо срочно пересмотреть либо проектирование моделей, подобных CLIP, либо существующий процесс создания наборов данных изображений и текстов, основанный на фильтрации по оценке CLIP.

English

Despite CLIP being the foundation model in numerous vision-language applications, the CLIP suffers from a severe text spotting bias. Such bias causes CLIP models to `Parrot' the visual text embedded within images while disregarding the authentic visual semantics. We uncover that in the most popular image-text dataset LAION-2B, the captions also densely parrot (spell) the text embedded in images. Our analysis shows that around 50\% of images are embedded with visual text content, and 90\% of their captions more or less parrot the visual text. Based on such observation, we thoroughly inspect the different release d versions of CLIP models and verify that the visual text is the dominant factor in measuring the LAION-style image-text similarity for these models. To examine whether these parrot captions shape the text spotting bias, we train a series of CLIP models with LAION subsets curated by different parrot-caption-oriented criteria. We show that training with parrot captions easily shapes such bias but harms the expected visual-language representation learning in CLIP models. This suggests that it is urgent to revisit either the design of CLIP-like models or the existing image-text dataset curation pipeline built on CLIP score filtering.

Подписи Parrot учат CLIP распознавать текст

Parrot Captions Teach CLIP to Spot Text

Аннотация

Support