DOCCI: Beschreibungen von verbundenen und kontrastierenden Bildern
DOCCI: Descriptions of Connected and Contrasting Images
April 30, 2024
papers.authors: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI
papers.abstract
Vision-Sprach-Datensätze sind sowohl für die Text-zu-Bild (T2I) als auch für die Bild-zu-Text (I2T) Forschung entscheidend. Allerdings fehlen aktuellen Datensätzen Beschreibungen mit feingliedrigen Details, die es Modellen ermöglichen würden, reichhaltigere Assoziationen zu erlernen. Um diese Lücke zu schließen, stellen wir Descriptions of Connected and Contrasting Images (DOCCI) vor, einen Datensatz mit langen, menschlich annotierten englischen Beschreibungen für 15.000 Bilder, die von einem einzelnen Forscher aufgenommen, kuratiert und gespendet wurden, mit dem Ziel, Schlüsselherausforderungen wie räumliche Beziehungen, Zählen, Textdarstellung, Weltwissen und mehr zu erfassen. Wir weisen menschliche Annotatoren an, umfassende Beschreibungen für jedes Bild zu erstellen; diese sind im Durchschnitt 136 Wörter lang und werden so verfasst, dass jedes Bild klar von verwandten oder ähnlichen Bildern abgegrenzt wird. Jede Beschreibung ist stark zusammengesetzt und umfasst in der Regel mehrere Herausforderungen. Durch quantitative und qualitative Analysen zeigen wir, dass DOCCI als effektive Schulungsressource für die Bild-zu-Text-Generierung dient - ein PaLI 5B-Modell, das auf DOCCI feinabgestimmt ist, zeigt gleichwertige oder überlegene Ergebnisse im Vergleich zu hochleistungsfähigen größeren Modellen wie LLaVA-1.5 7B und InstructBLIP 7B. Darüber hinaus zeigen wir, dass DOCCI ein nützliches Testfeld für die Text-zu-Bild-Generierung ist und die Grenzen der aktuellen Text-zu-Bild-Modelle bei der Erfassung langer Beschreibungen und feiner Details aufzeigt.
English
Vision-language datasets are vital for both text-to-image (T2I) and
image-to-text (I2T) research. However, current datasets lack descriptions with
fine-grained detail that would allow for richer associations to be learned by
models. To fill the gap, we introduce Descriptions of Connected and Contrasting
Images (DOCCI), a dataset with long, human-annotated English descriptions for
15k images that were taken, curated and donated by a single researcher intent
on capturing key challenges such as spatial relations, counting, text
rendering, world knowledge, and more. We instruct human annotators to create
comprehensive descriptions for each image; these average 136 words in length
and are crafted to clearly distinguish each image from those that are related
or similar. Each description is highly compositional and typically encompasses
multiple challenges. Through both quantitative and qualitative analyses, we
demonstrate that DOCCI serves as an effective training resource for
image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or
superior results compared to highly-performant larger models like LLaVA-1.5 7B
and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for
text-to-image generation, highlighting the limitations of current text-to-image
models in capturing long descriptions and fine details.