Parrot-Bildunterschriften bringen CLIP bei, Text zu erkennen
Parrot Captions Teach CLIP to Spot Text
December 21, 2023
papers.authors: Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou
cs.AI
papers.abstract
Obwohl CLIP das Grundmodell für zahlreiche Vision-Sprache-Anwendungen ist, leidet CLIP unter einer starken Text-Erkennungsverzerrung. Diese Verzerrung führt dazu, dass CLIP-Modelle den in Bildern eingebetteten visuellen Text „nachplappern“, während sie die eigentliche visuelle Semantik vernachlässigen. Wir decken auf, dass in dem beliebtesten Bild-Text-Datensatz LAION-2B die Bildunterschriften ebenfalls häufig den in Bildern eingebetteten Text buchstabengetreu wiedergeben. Unsere Analyse zeigt, dass etwa 50 % der Bilder visuellen Text enthalten und 90 % ihrer Bildunterschriften diesen Text mehr oder weniger nachahmen. Basierend auf dieser Beobachtung untersuchen wir gründlich die verschiedenen veröffentlichten Versionen der CLIP-Modelle und bestätigen, dass der visuelle Text der dominierende Faktor bei der Messung der LAION-ähnlichen Bild-Text-Ähnlichkeit für diese Modelle ist. Um zu prüfen, ob diese nachahmenden Bildunterschriften die Text-Erkennungsverzerrung prägen, trainieren wir eine Reihe von CLIP-Modellen mit LAION-Teilgruppen, die nach verschiedenen Kriterien im Hinblick auf nachahmende Bildunterschriften kuratiert wurden. Wir zeigen, dass das Training mit nachahmenden Bildunterschriften diese Verzerrung leicht verstärkt, jedoch das erwartete visuell-sprachliche Repräsentationslernen in CLIP-Modellen beeinträchtigt. Dies deutet darauf hin, dass es dringend notwendig ist, entweder das Design von CLIP-ähnlichen Modellen oder die bestehende Kuratierungspipeline für Bild-Text-Datensätze, die auf CLIP-Score-Filterung basiert, zu überdenken.
English
Despite CLIP being the foundation model in numerous vision-language
applications, the CLIP suffers from a severe text spotting bias. Such bias
causes CLIP models to `Parrot' the visual text embedded within images while
disregarding the authentic visual semantics. We uncover that in the most
popular image-text dataset LAION-2B, the captions also densely parrot (spell)
the text embedded in images. Our analysis shows that around 50\% of
images are embedded with visual text content, and 90\% of their
captions more or less parrot the visual text. Based on such observation, we
thoroughly inspect the different release d versions of CLIP models and verify
that the visual text is the dominant factor in measuring the LAION-style
image-text similarity for these models. To examine whether these parrot
captions shape the text spotting bias, we train a series of CLIP models with
LAION subsets curated by different parrot-caption-oriented criteria. We show
that training with parrot captions easily shapes such bias but harms the
expected visual-language representation learning in CLIP models. This suggests
that it is urgent to revisit either the design of CLIP-like models or the
existing image-text dataset curation pipeline built on CLIP score filtering.