ChatPaper.aiChatPaper

Les légendes Parrot apprennent à CLIP à repérer le texte

Parrot Captions Teach CLIP to Spot Text

December 21, 2023
Auteurs: Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou
cs.AI

Résumé

Bien que CLIP soit le modèle de base dans de nombreuses applications vision-langage, il souffre d'un biais important de détection de texte. Ce biais amène les modèles CLIP à `parroter' le texte visuel intégré dans les images tout en ignorant la sémantique visuelle authentique. Nous découvrons que dans le jeu de données image-texte le plus populaire, LAION-2B, les légendes parrottent également de manière dense (épellent) le texte intégré dans les images. Notre analyse montre qu'environ 50 % des images contiennent du texte visuel, et que 90 % de leurs légendes parrottent plus ou moins ce texte visuel. Sur la base de cette observation, nous examinons minutieusement les différentes versions des modèles CLIP et vérifions que le texte visuel est le facteur dominant dans la mesure de la similarité image-texte de style LAION pour ces modèles. Pour examiner si ces légendes parrottes façonnent le biais de détection de texte, nous entraînons une série de modèles CLIP avec des sous-ensembles de LAION sélectionnés selon différents critères orientés vers les légendes parrottes. Nous montrons que l'entraînement avec des légendes parrottes façonne facilement ce biais mais nuit à l'apprentissage attendu des représentations vision-langage dans les modèles CLIP. Cela suggère qu'il est urgent de revoir soit la conception des modèles de type CLIP, soit le pipeline de curation des jeux de données image-texte existants basé sur le filtrage par score CLIP.
English
Despite CLIP being the foundation model in numerous vision-language applications, the CLIP suffers from a severe text spotting bias. Such bias causes CLIP models to `Parrot' the visual text embedded within images while disregarding the authentic visual semantics. We uncover that in the most popular image-text dataset LAION-2B, the captions also densely parrot (spell) the text embedded in images. Our analysis shows that around 50\% of images are embedded with visual text content, and 90\% of their captions more or less parrot the visual text. Based on such observation, we thoroughly inspect the different release d versions of CLIP models and verify that the visual text is the dominant factor in measuring the LAION-style image-text similarity for these models. To examine whether these parrot captions shape the text spotting bias, we train a series of CLIP models with LAION subsets curated by different parrot-caption-oriented criteria. We show that training with parrot captions easily shapes such bias but harms the expected visual-language representation learning in CLIP models. This suggests that it is urgent to revisit either the design of CLIP-like models or the existing image-text dataset curation pipeline built on CLIP score filtering.
PDF121December 15, 2024