Parrot Bijschriften Leren CLIP Tekst te Herkennen
Parrot Captions Teach CLIP to Spot Text
December 21, 2023
Auteurs: Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou
cs.AI
Samenvatting
Ondanks dat CLIP het basismodel is in talloze visie-taaltoepassingen, lijdt CLIP aan een ernstige vooringenomenheid ten opzichte van tekstherkenning. Deze vooringenomenheid zorgt ervoor dat CLIP-modellen de visuele tekst in afbeeldingen 'napraten' terwijl ze de authentieke visuele semantiek negeren. Wij ontdekken dat in de meest populaire afbeelding-tekstdataset, LAION-2B, de bijschriften ook dicht de tekst in afbeeldingen napraten (spellen). Onze analyse toont aan dat ongeveer 50\% van de afbeeldingen visuele tekstinhoud bevatten, en dat 90\% van hun bijschriften min of meer de visuele tekst napraten. Op basis van deze observatie onderzoeken we grondig de verschillende vrijgegeven versies van CLIP-modellen en bevestigen we dat de visuele tekst de dominante factor is bij het meten van de LAION-stijl afbeelding-tekstovereenkomst voor deze modellen. Om te onderzoeken of deze napratende bijschorten de vooringenomenheid in tekstherkenning vormen, trainen we een reeks CLIP-modellen met LAION-subsetten die zijn samengesteld volgens verschillende criteria gericht op napratende bijschriften. We tonen aan dat trainen met napratende bijschriften gemakkelijk zo'n vooringenomenheid vormt, maar het beoogde visie-taalrepresentatie leren in CLIP-modellen schaadt. Dit suggereert dat het dringend nodig is om ofwel het ontwerp van CLIP-achtige modellen ofwel de bestaande afbeelding-tekstdatasetcuratiepijplijn die is gebouwd op CLIP-scorefiltering te heroverwegen.
English
Despite CLIP being the foundation model in numerous vision-language
applications, the CLIP suffers from a severe text spotting bias. Such bias
causes CLIP models to `Parrot' the visual text embedded within images while
disregarding the authentic visual semantics. We uncover that in the most
popular image-text dataset LAION-2B, the captions also densely parrot (spell)
the text embedded in images. Our analysis shows that around 50\% of
images are embedded with visual text content, and 90\% of their
captions more or less parrot the visual text. Based on such observation, we
thoroughly inspect the different release d versions of CLIP models and verify
that the visual text is the dominant factor in measuring the LAION-style
image-text similarity for these models. To examine whether these parrot
captions shape the text spotting bias, we train a series of CLIP models with
LAION subsets curated by different parrot-caption-oriented criteria. We show
that training with parrot captions easily shapes such bias but harms the
expected visual-language representation learning in CLIP models. This suggests
that it is urgent to revisit either the design of CLIP-like models or the
existing image-text dataset curation pipeline built on CLIP score filtering.