Legendas de Papagaio Ensinam o CLIP a Detectar Texto
Parrot Captions Teach CLIP to Spot Text
December 21, 2023
Autores: Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou
cs.AI
Resumo
Apesar de o CLIP ser o modelo fundamental em diversas aplicações de visão e linguagem, ele sofre de um forte viés de detecção de texto. Esse viés faz com que os modelos CLIP "repetam" o texto visual incorporado nas imagens, ignorando a semântica visual autêntica. Descobrimos que, no conjunto de dados imagem-texto mais popular, o LAION-2B, as legendas também repetem densamente (soletram) o texto incorporado nas imagens. Nossa análise mostra que cerca de 50% das imagens contêm conteúdo de texto visual, e 90% de suas legendas repetem, em maior ou menor grau, o texto visual. Com base nessa observação, inspecionamos minuciosamente as diferentes versões lançadas dos modelos CLIP e verificamos que o texto visual é o fator dominante na medição da similaridade imagem-texto no estilo LAION para esses modelos. Para examinar se essas legendas repetitivas moldam o viés de detecção de texto, treinamos uma série de modelos CLIP com subconjuntos do LAION curados por diferentes critérios orientados para legendas repetitivas. Mostramos que o treinamento com legendas repetitivas facilmente molda esse viés, mas prejudica o aprendizado esperado de representação visual-linguística nos modelos CLIP. Isso sugere que é urgente revisitar tanto o design de modelos semelhantes ao CLIP quanto o pipeline existente de curadoria de conjuntos de dados imagem-texto construído com filtragem por pontuação CLIP.
English
Despite CLIP being the foundation model in numerous vision-language
applications, the CLIP suffers from a severe text spotting bias. Such bias
causes CLIP models to `Parrot' the visual text embedded within images while
disregarding the authentic visual semantics. We uncover that in the most
popular image-text dataset LAION-2B, the captions also densely parrot (spell)
the text embedded in images. Our analysis shows that around 50\% of
images are embedded with visual text content, and 90\% of their
captions more or less parrot the visual text. Based on such observation, we
thoroughly inspect the different release d versions of CLIP models and verify
that the visual text is the dominant factor in measuring the LAION-style
image-text similarity for these models. To examine whether these parrot
captions shape the text spotting bias, we train a series of CLIP models with
LAION subsets curated by different parrot-caption-oriented criteria. We show
that training with parrot captions easily shapes such bias but harms the
expected visual-language representation learning in CLIP models. This suggests
that it is urgent to revisit either the design of CLIP-like models or the
existing image-text dataset curation pipeline built on CLIP score filtering.