ChatPaper.aiChatPaper

DOCCI : Descriptions d'Images Connectées et Contrastées

DOCCI: Descriptions of Connected and Contrasting Images

April 30, 2024
Auteurs: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI

Résumé

Les ensembles de données vision-langage sont essentiels pour la recherche en génération d'images à partir de texte (T2I) et de texte à partir d'images (I2T). Cependant, les ensembles de données actuels manquent de descriptions détaillées qui permettraient aux modèles d'apprendre des associations plus riches. Pour combler cette lacune, nous présentons Descriptions of Connected and Contrasting Images (DOCCI), un ensemble de données contenant de longues descriptions annotées manuellement en anglais pour 15 000 images. Ces images ont été prises, sélectionnées et fournies par un seul chercheur, avec l'objectif de capturer des défis clés tels que les relations spatiales, le décompte, le rendu de texte, les connaissances générales, et plus encore. Nous avons demandé aux annotateurs humains de créer des descriptions exhaustives pour chaque image ; celles-ci comptent en moyenne 136 mots et sont conçues pour distinguer clairement chaque image de celles qui sont liées ou similaires. Chaque description est hautement compositionnelle et englobe généralement plusieurs défis. À travers des analyses quantitatives et qualitatives, nous démontrons que DOCCI constitue une ressource d'entraînement efficace pour la génération de texte à partir d'images — un modèle PaLI 5B affiné sur DOCCI montre des résultats égaux ou supérieurs à ceux de modèles plus performants et plus volumineux comme LLaVA-1.5 7B et InstructBLIP 7B. De plus, nous montrons que DOCCI est un banc d'essai utile pour la génération d'images à partir de texte, mettant en lumière les limites des modèles actuels de génération d'images à partir de texte dans la capture de descriptions longues et de détails fins.
English
Vision-language datasets are vital for both text-to-image (T2I) and image-to-text (I2T) research. However, current datasets lack descriptions with fine-grained detail that would allow for richer associations to be learned by models. To fill the gap, we introduce Descriptions of Connected and Contrasting Images (DOCCI), a dataset with long, human-annotated English descriptions for 15k images that were taken, curated and donated by a single researcher intent on capturing key challenges such as spatial relations, counting, text rendering, world knowledge, and more. We instruct human annotators to create comprehensive descriptions for each image; these average 136 words in length and are crafted to clearly distinguish each image from those that are related or similar. Each description is highly compositional and typically encompasses multiple challenges. Through both quantitative and qualitative analyses, we demonstrate that DOCCI serves as an effective training resource for image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or superior results compared to highly-performant larger models like LLaVA-1.5 7B and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for text-to-image generation, highlighting the limitations of current text-to-image models in capturing long descriptions and fine details.

Summary

AI-Generated Summary

PDF131December 8, 2024