앵무새 캡션은 CLIP이 텍스트를 인식하도록 가르친다
Parrot Captions Teach CLIP to Spot Text
December 21, 2023
저자: Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou
cs.AI
초록
CLIP은 수많은 시각-언어 애플리케이션의 기반 모델임에도 불구하고, 심각한 텍스트 인식 편향을 보입니다. 이러한 편향은 CLIP 모델이 이미지 내에 포함된 시각적 텍스트를 '앵무새처럼 따라하는(Parrot)' 반면, 진정한 시각적 의미를 무시하도록 만듭니다. 우리는 가장 널리 사용되는 이미지-텍스트 데이터셋인 LAION-2B에서 캡션들도 이미지에 포함된 텍스트를 빽빽이 따라하는(spell) 현상을 발견했습니다. 우리의 분석에 따르면, 약 50%의 이미지가 시각적 텍스트 콘텐츠를 포함하고 있으며, 이들 캡션의 90%가 다소간 시각적 텍스트를 따라하는 것으로 나타났습니다. 이러한 관찰을 바탕으로, 우리는 다양한 버전의 CLIP 모델을 철저히 검토하고, 이러한 모델들이 LAION 스타일의 이미지-텍스트 유사성을 측정할 때 시각적 텍스트가 지배적인 요소임을 확인했습니다. 이러한 앵무새 캡션들이 텍스트 인식 편향을 형성하는지 여부를 검토하기 위해, 우리는 다양한 앵무새 캡션 중심 기준으로 선별된 LAION 하위 집합을 사용하여 일련의 CLIP 모델을 학습시켰습니다. 우리는 앵무새 캡션으로 학습하면 이러한 편향이 쉽게 형성되지만, CLIP 모델에서 기대되는 시각-언어 표현 학습에 해를 끼친다는 것을 보여줍니다. 이는 CLIP과 유사한 모델의 설계나 CLIP 점수 필터링에 기반한 기존의 이미지-텍스트 데이터셋 구축 파이프라인을 재검토하는 것이 시급함을 시사합니다.
English
Despite CLIP being the foundation model in numerous vision-language
applications, the CLIP suffers from a severe text spotting bias. Such bias
causes CLIP models to `Parrot' the visual text embedded within images while
disregarding the authentic visual semantics. We uncover that in the most
popular image-text dataset LAION-2B, the captions also densely parrot (spell)
the text embedded in images. Our analysis shows that around 50\% of
images are embedded with visual text content, and 90\% of their
captions more or less parrot the visual text. Based on such observation, we
thoroughly inspect the different release d versions of CLIP models and verify
that the visual text is the dominant factor in measuring the LAION-style
image-text similarity for these models. To examine whether these parrot
captions shape the text spotting bias, we train a series of CLIP models with
LAION subsets curated by different parrot-caption-oriented criteria. We show
that training with parrot captions easily shapes such bias but harms the
expected visual-language representation learning in CLIP models. This suggests
that it is urgent to revisit either the design of CLIP-like models or the
existing image-text dataset curation pipeline built on CLIP score filtering.