DOCCI: 接続および対比画像の記述
DOCCI: Descriptions of Connected and Contrasting Images
April 30, 2024
著者: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI
要旨
視覚と言語のデータセットは、テキストから画像(T2I)および画像からテキスト(I2T)の研究において極めて重要です。しかし、現在のデータセットには、モデルがより豊かな関連性を学習するための詳細な記述が欠けています。このギャップを埋めるため、我々は「接続された画像と対照的な画像の記述(DOCCI)」を導入します。これは、1人の研究者が撮影、キュレーション、提供した15,000枚の画像に対して、長文の人間による英語の記述を付与したデータセットです。この研究者は、空間関係、数え上げ、テキストのレンダリング、世界知識などの重要な課題を捉えることを意図していました。我々は、人間のアノテーターに各画像の包括的な記述を作成するよう指示しました。これらの記述は平均136語の長さで、関連するまたは類似した画像から各画像を明確に区別するように工夫されています。各記述は高度に構成されており、通常は複数の課題を包含しています。定量的および定性的な分析を通じて、DOCCIが画像からテキスト生成の効果的なトレーニングリソースとして機能することを示します。DOCCIでファインチューニングされたPaLI 5Bモデルは、LLaVA-1.5 7BやInstructBLIP 7Bなどの高性能な大規模モデルと同等または優れた結果を示します。さらに、DOCCIがテキストから画像生成の有用なテストベッドとして機能し、現在のテキストから画像モデルが長文の記述や細部を捉えることの限界を浮き彫りにすることを示します。
English
Vision-language datasets are vital for both text-to-image (T2I) and
image-to-text (I2T) research. However, current datasets lack descriptions with
fine-grained detail that would allow for richer associations to be learned by
models. To fill the gap, we introduce Descriptions of Connected and Contrasting
Images (DOCCI), a dataset with long, human-annotated English descriptions for
15k images that were taken, curated and donated by a single researcher intent
on capturing key challenges such as spatial relations, counting, text
rendering, world knowledge, and more. We instruct human annotators to create
comprehensive descriptions for each image; these average 136 words in length
and are crafted to clearly distinguish each image from those that are related
or similar. Each description is highly compositional and typically encompasses
multiple challenges. Through both quantitative and qualitative analyses, we
demonstrate that DOCCI serves as an effective training resource for
image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or
superior results compared to highly-performant larger models like LLaVA-1.5 7B
and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for
text-to-image generation, highlighting the limitations of current text-to-image
models in capturing long descriptions and fine details.Summary
AI-Generated Summary