Подписи Parrot учат CLIP распознавать текст
Parrot Captions Teach CLIP to Spot Text
December 21, 2023
Авторы: Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou
cs.AI
Аннотация
Несмотря на то, что CLIP является базовой моделью для множества задач, связанных с обработкой изображений и текста, она страдает от сильной предвзятости к распознаванию текста на изображениях. Такая предвзятость заставляет модели CLIP "повторять" визуальный текст, встроенный в изображения, игнорируя при этом подлинную визуальную семантику. Мы обнаружили, что в наиболее популярном наборе данных LAION-2B, содержащем изображения и текстовые описания, подписи также часто дословно повторяют текст, встроенный в изображения. Наш анализ показывает, что около 50\% изображений содержат визуальный текст, и 90\% их подписей в той или иной степени повторяют этот текст. Основываясь на этом наблюдении, мы тщательно исследуем различные версии моделей CLIP и подтверждаем, что визуальный текст является доминирующим фактором при измерении сходства изображений и текста в стиле LAION для этих моделей. Чтобы проверить, формируют ли такие повторяющиеся подписи предвзятость к распознаванию текста, мы обучаем серию моделей CLIP на подмножествах LAION, отобранных по различным критериям, ориентированным на повторяющиеся подписи. Мы показываем, что обучение с использованием таких подписей легко формирует эту предвзятость, но вредит ожидаемому обучению визуально-языковым представлениям в моделях CLIP. Это говорит о том, что необходимо срочно пересмотреть либо проектирование моделей, подобных CLIP, либо существующий процесс создания наборов данных изображений и текстов, основанный на фильтрации по оценке CLIP.
English
Despite CLIP being the foundation model in numerous vision-language
applications, the CLIP suffers from a severe text spotting bias. Such bias
causes CLIP models to `Parrot' the visual text embedded within images while
disregarding the authentic visual semantics. We uncover that in the most
popular image-text dataset LAION-2B, the captions also densely parrot (spell)
the text embedded in images. Our analysis shows that around 50\% of
images are embedded with visual text content, and 90\% of their
captions more or less parrot the visual text. Based on such observation, we
thoroughly inspect the different release d versions of CLIP models and verify
that the visual text is the dominant factor in measuring the LAION-style
image-text similarity for these models. To examine whether these parrot
captions shape the text spotting bias, we train a series of CLIP models with
LAION subsets curated by different parrot-caption-oriented criteria. We show
that training with parrot captions easily shapes such bias but harms the
expected visual-language representation learning in CLIP models. This suggests
that it is urgent to revisit either the design of CLIP-like models or the
existing image-text dataset curation pipeline built on CLIP score filtering.