ChatPaper.aiChatPaper

DOCCI: Beschrijvingen van Verbonden en Contrastrijke Afbeeldingen

DOCCI: Descriptions of Connected and Contrasting Images

April 30, 2024
Auteurs: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI

Samenvatting

Vision-language datasets zijn essentieel voor zowel tekst-naar-beeld (T2I) als beeld-naar-tekst (I2T) onderzoek. Huidige datasets missen echter beschrijvingen met fijnmazige details die modellen in staat zouden stellen rijkere associaties te leren. Om deze leemte te vullen, introduceren we Descriptions of Connected and Contrasting Images (DOCCI), een dataset met lange, door mensen geannoteerde Engelse beschrijvingen voor 15k afbeeldingen die zijn gemaakt, gecureerd en gedoneerd door een enkele onderzoeker met de intentie om belangrijke uitdagingen vast te leggen, zoals ruimtelijke relaties, tellen, tekstweergave, wereldkennis en meer. We instrueren menselijke annotators om uitgebreide beschrijvingen te maken voor elke afbeelding; deze hebben gemiddeld een lengte van 136 woorden en zijn zo gemaakt dat ze elke afbeelding duidelijk onderscheiden van gerelateerde of vergelijkbare afbeeldingen. Elke beschrijving is sterk compositioneel en omvat typisch meerdere uitdagingen. Door zowel kwantitatieve als kwalitatieve analyses tonen we aan dat DOCCI een effectieve trainingsbron is voor beeld-naar-tekst generatie — een PaLI 5B model dat is gefinetuned op DOCCI laat gelijke of superieure resultaten zien vergeleken met hoogpresterende grotere modellen zoals LLaVA-1.5 7B en InstructBLIP 7B. Bovendien laten we zien dat DOCCI een nuttige testomgeving is voor tekst-naar-beeld generatie, waarbij de beperkingen van huidige tekst-naar-beeld modellen in het vastleggen van lange beschrijvingen en fijne details worden belicht.
English
Vision-language datasets are vital for both text-to-image (T2I) and image-to-text (I2T) research. However, current datasets lack descriptions with fine-grained detail that would allow for richer associations to be learned by models. To fill the gap, we introduce Descriptions of Connected and Contrasting Images (DOCCI), a dataset with long, human-annotated English descriptions for 15k images that were taken, curated and donated by a single researcher intent on capturing key challenges such as spatial relations, counting, text rendering, world knowledge, and more. We instruct human annotators to create comprehensive descriptions for each image; these average 136 words in length and are crafted to clearly distinguish each image from those that are related or similar. Each description is highly compositional and typically encompasses multiple challenges. Through both quantitative and qualitative analyses, we demonstrate that DOCCI serves as an effective training resource for image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or superior results compared to highly-performant larger models like LLaVA-1.5 7B and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for text-to-image generation, highlighting the limitations of current text-to-image models in capturing long descriptions and fine details.
PDF131February 8, 2026