Parrot CaptionsがCLIPにテキスト検出を教える
Parrot Captions Teach CLIP to Spot Text
December 21, 2023
著者: Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou
cs.AI
要旨
CLIPは数多くの視覚-言語アプリケーションの基盤モデルであるにもかかわらず、深刻なテキストスポッティングバイアスに悩まされています。このバイアスにより、CLIPモデルは画像に埋め込まれた視覚的テキストを「オウム返し」し、本来の視覚的意味を無視してしまいます。私たちは、最も人気のある画像-テキストデータセットであるLAION-2Bにおいて、キャプションも画像に埋め込まれたテキストを密集してオウム返し(スペルアウト)していることを発見しました。分析によると、約50%の画像に視覚的テキストコンテンツが埋め込まれており、そのキャプションの90%が多かれ少なかれ視覚的テキストをオウム返ししています。この観察に基づき、私たちはCLIPモデルの異なるリリースバージョンを徹底的に調査し、これらのモデルにおいてLAIONスタイルの画像-テキスト類似度を測定する際に視覚的テキストが支配的な要因であることを確認しました。これらのオウム返しキャプションがテキストスポッティングバイアスを形成するかどうかを検証するため、異なるオウム返しキャプション指向の基準でキュレーションされたLAIONサブセットを用いて一連のCLIPモデルをトレーニングしました。その結果、オウム返しキャプションを用いたトレーニングは容易にそのようなバイアスを形成しますが、CLIPモデルにおける期待される視覚-言語表現学習を損なうことがわかりました。これは、CLIPのようなモデルの設計や、CLIPスコアフィルタリングに基づいて構築された既存の画像-テキストデータセットのキュレーションパイプラインを見直すことが急務であることを示唆しています。
English
Despite CLIP being the foundation model in numerous vision-language
applications, the CLIP suffers from a severe text spotting bias. Such bias
causes CLIP models to `Parrot' the visual text embedded within images while
disregarding the authentic visual semantics. We uncover that in the most
popular image-text dataset LAION-2B, the captions also densely parrot (spell)
the text embedded in images. Our analysis shows that around 50\% of
images are embedded with visual text content, and 90\% of their
captions more or less parrot the visual text. Based on such observation, we
thoroughly inspect the different release d versions of CLIP models and verify
that the visual text is the dominant factor in measuring the LAION-style
image-text similarity for these models. To examine whether these parrot
captions shape the text spotting bias, we train a series of CLIP models with
LAION subsets curated by different parrot-caption-oriented criteria. We show
that training with parrot captions easily shapes such bias but harms the
expected visual-language representation learning in CLIP models. This suggests
that it is urgent to revisit either the design of CLIP-like models or the
existing image-text dataset curation pipeline built on CLIP score filtering.