ChatPaper.aiChatPaper

VCR: ビジュアルキャプション復元

VCR: Visual Caption Restoration

June 10, 2024
著者: Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio
cs.AI

要旨

我々は、画像内のピクセルレベルのヒントを用いて部分的に隠されたテキストを正確に復元する能力をモデルに求める新たな視覚言語タスク「Visual Caption Restoration (VCR)」を提案する。このタスクは、画像に埋め込まれたテキストが、視覚、テキスト、および画像に埋め込まれたテキストというモダリティを整合させる必要性から、一般的な視覚要素や自然言語とは本質的に異なるという観察に基づいている。これまで多くの研究が画像に埋め込まれたテキストを視覚的質問応答タスクに統合してきたが、これらのアプローチは一般的に光学文字認識(OCR)やマスク言語モデリングに依存しており、タスクを主にテキストベースの処理に還元している。しかし、VCRでは、正確なテキスト復元が提供された画像、文脈、およびマスクされたテキストの微小な露出部分からの微妙な手がかりの組み合わせに依存するため、テキストベースの処理は効果的ではない。我々は、画像とキャプションのペアを使用してVCRタスクのための合成画像を生成するパイプラインを開発し、キャプションの可視性を調整してタスクの難易度を制御する。このパイプラインを用いて、Wikipediaのキャプション付き画像から構成されるVCR-Wikiデータセットを構築し、英語2.11Mエンティティ、中国語346Kエンティティの簡単版と困難版の両方を含む。結果から、現在の視覚言語モデルはVCRタスクにおいて人間の性能に大きく遅れをとっており、我々のデータセットでモデルを微調整しても顕著な改善は見られないことが明らかになった。今後の研究を促進するため、VCR-Wikiとデータ構築コードを公開する。
English
We introduce Visual Caption Restoration (VCR), a novel vision-language task that challenges models to accurately restore partially obscured texts using pixel-level hints within images. This task stems from the observation that text embedded in images is intrinsically different from common visual elements and natural language due to the need to align the modalities of vision, text, and text embedded in images. While numerous works have integrated text embedded in images into visual question-answering tasks, approaches to these tasks generally rely on optical character recognition or masked language modeling, thus reducing the task to mainly text-based processing. However, text-based processing becomes ineffective in VCR as accurate text restoration depends on the combined information from provided images, context, and subtle cues from the tiny exposed areas of masked texts. We develop a pipeline to generate synthetic images for the VCR task using image-caption pairs, with adjustable caption visibility to control the task difficulty. With this pipeline, we construct a dataset for VCR called VCR-Wiki using images with captions from Wikipedia, comprising 2.11M English and 346K Chinese entities in both easy and hard split variants. Our results reveal that current vision language models significantly lag behind human performance in the VCR task, and merely fine-tuning the models on our dataset does not lead to notable improvements. We release VCR-Wiki and the data construction code to facilitate future research.
PDF131December 8, 2024