Parrot-Bildunterschriften bringen CLIP bei, Text zu erkennen

papers.abstract

Obwohl CLIP das Grundmodell für zahlreiche Vision-Sprache-Anwendungen ist, leidet CLIP unter einer starken Text-Erkennungsverzerrung. Diese Verzerrung führt dazu, dass CLIP-Modelle den in Bildern eingebetteten visuellen Text „nachplappern“, während sie die eigentliche visuelle Semantik vernachlässigen. Wir decken auf, dass in dem beliebtesten Bild-Text-Datensatz LAION-2B die Bildunterschriften ebenfalls häufig den in Bildern eingebetteten Text buchstabengetreu wiedergeben. Unsere Analyse zeigt, dass etwa 50 % der Bilder visuellen Text enthalten und 90 % ihrer Bildunterschriften diesen Text mehr oder weniger nachahmen. Basierend auf dieser Beobachtung untersuchen wir gründlich die verschiedenen veröffentlichten Versionen der CLIP-Modelle und bestätigen, dass der visuelle Text der dominierende Faktor bei der Messung der LAION-ähnlichen Bild-Text-Ähnlichkeit für diese Modelle ist. Um zu prüfen, ob diese nachahmenden Bildunterschriften die Text-Erkennungsverzerrung prägen, trainieren wir eine Reihe von CLIP-Modellen mit LAION-Teilgruppen, die nach verschiedenen Kriterien im Hinblick auf nachahmende Bildunterschriften kuratiert wurden. Wir zeigen, dass das Training mit nachahmenden Bildunterschriften diese Verzerrung leicht verstärkt, jedoch das erwartete visuell-sprachliche Repräsentationslernen in CLIP-Modellen beeinträchtigt. Dies deutet darauf hin, dass es dringend notwendig ist, entweder das Design von CLIP-ähnlichen Modellen oder die bestehende Kuratierungspipeline für Bild-Text-Datensätze, die auf CLIP-Score-Filterung basiert, zu überdenken.

English

Despite CLIP being the foundation model in numerous vision-language applications, the CLIP suffers from a severe text spotting bias. Such bias causes CLIP models to `Parrot' the visual text embedded within images while disregarding the authentic visual semantics. We uncover that in the most popular image-text dataset LAION-2B, the captions also densely parrot (spell) the text embedded in images. Our analysis shows that around 50\% of images are embedded with visual text content, and 90\% of their captions more or less parrot the visual text. Based on such observation, we thoroughly inspect the different release d versions of CLIP models and verify that the visual text is the dominant factor in measuring the LAION-style image-text similarity for these models. To examine whether these parrot captions shape the text spotting bias, we train a series of CLIP models with LAION subsets curated by different parrot-caption-oriented criteria. We show that training with parrot captions easily shapes such bias but harms the expected visual-language representation learning in CLIP models. This suggests that it is urgent to revisit either the design of CLIP-like models or the existing image-text dataset curation pipeline built on CLIP score filtering.

Parrot-Bildunterschriften bringen CLIP bei, Text zu erkennen

Parrot Captions Teach CLIP to Spot Text

papers.abstract

Support