DOCCI: Descrizioni di Immagini Connesse e Contrastanti
DOCCI: Descriptions of Connected and Contrasting Images
April 30, 2024
Autori: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI
Abstract
I dataset visione-linguaggio sono fondamentali sia per la ricerca testo-immagine (T2I) che per quella immagine-testo (I2T). Tuttavia, i dataset attuali mancano di descrizioni con dettagli granulari che consentirebbero ai modelli di apprendere associazioni più ricche. Per colmare questa lacuna, introduciamo Descriptions of Connected and Contrasting Images (DOCCI), un dataset con descrizioni lunghe e annotate manualmente in inglese per 15.000 immagini, scattate, curate e donate da un singolo ricercatore con l'obiettivo di catturare sfide chiave come relazioni spaziali, conteggio, rendering del testo, conoscenza del mondo e altro. Abbiamo istruito gli annotatori umani a creare descrizioni complete per ogni immagine; queste hanno una lunghezza media di 136 parole e sono progettate per distinguere chiaramente ogni immagine da quelle correlate o simili. Ogni descrizione è altamente composizionale e tipicamente comprende più sfide. Attraverso analisi sia quantitative che qualitative, dimostriamo che DOCCI rappresenta una risorsa di formazione efficace per la generazione immagine-testo: un modello PaLI 5B addestrato su DOCCI mostra risultati pari o superiori rispetto a modelli più grandi e ad alte prestazioni come LLaVA-1.5 7B e InstructBLIP 7B. Inoltre, mostriamo che DOCCI è un banco di prova utile per la generazione testo-immagine, evidenziando i limiti degli attuali modelli testo-immagine nel catturare descrizioni lunghe e dettagli fini.
English
Vision-language datasets are vital for both text-to-image (T2I) and
image-to-text (I2T) research. However, current datasets lack descriptions with
fine-grained detail that would allow for richer associations to be learned by
models. To fill the gap, we introduce Descriptions of Connected and Contrasting
Images (DOCCI), a dataset with long, human-annotated English descriptions for
15k images that were taken, curated and donated by a single researcher intent
on capturing key challenges such as spatial relations, counting, text
rendering, world knowledge, and more. We instruct human annotators to create
comprehensive descriptions for each image; these average 136 words in length
and are crafted to clearly distinguish each image from those that are related
or similar. Each description is highly compositional and typically encompasses
multiple challenges. Through both quantitative and qualitative analyses, we
demonstrate that DOCCI serves as an effective training resource for
image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or
superior results compared to highly-performant larger models like LLaVA-1.5 7B
and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for
text-to-image generation, highlighting the limitations of current text-to-image
models in capturing long descriptions and fine details.