DOCCI: Descrições de Imagens Conectadas e Contrastantes
DOCCI: Descriptions of Connected and Contrasting Images
April 30, 2024
Autores: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI
Resumo
Conjuntos de dados visão-linguagem são essenciais tanto para pesquisas de texto-para-imagem (T2I) quanto de imagem-para-texto (I2T). No entanto, os conjuntos de dados atuais carecem de descrições com detalhes refinados que permitiriam que modelos aprendessem associações mais ricas. Para preencher essa lacuna, introduzimos o Descriptions of Connected and Contrasting Images (DOCCI), um conjunto de dados com longas descrições em inglês, anotadas por humanos, para 15 mil imagens que foram capturadas, curadas e doadas por um único pesquisador com o objetivo de capturar desafios-chave, como relações espaciais, contagem, renderização de texto, conhecimento do mundo e mais. Instruímos anotadores humanos a criar descrições abrangentes para cada imagem; essas têm, em média, 136 palavras de extensão e são elaboradas para distinguir claramente cada imagem daquelas que são relacionadas ou semelhantes. Cada descrição é altamente composicional e normalmente abrange múltiplos desafios. Por meio de análises quantitativas e qualitativas, demonstramos que o DOCCI serve como um recurso eficaz de treinamento para geração de imagem-para-texto — um modelo PaLI 5B ajustado com o DOCCI apresenta resultados iguais ou superiores em comparação com modelos maiores e de alto desempenho, como LLaVA-1.5 7B e InstructBLIP 7B. Além disso, mostramos que o DOCCI é um banco de testes útil para geração de texto-para-imagem, destacando as limitações dos modelos atuais de texto-para-imagem em capturar descrições longas e detalhes refinados.
English
Vision-language datasets are vital for both text-to-image (T2I) and
image-to-text (I2T) research. However, current datasets lack descriptions with
fine-grained detail that would allow for richer associations to be learned by
models. To fill the gap, we introduce Descriptions of Connected and Contrasting
Images (DOCCI), a dataset with long, human-annotated English descriptions for
15k images that were taken, curated and donated by a single researcher intent
on capturing key challenges such as spatial relations, counting, text
rendering, world knowledge, and more. We instruct human annotators to create
comprehensive descriptions for each image; these average 136 words in length
and are crafted to clearly distinguish each image from those that are related
or similar. Each description is highly compositional and typically encompasses
multiple challenges. Through both quantitative and qualitative analyses, we
demonstrate that DOCCI serves as an effective training resource for
image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or
superior results compared to highly-performant larger models like LLaVA-1.5 7B
and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for
text-to-image generation, highlighting the limitations of current text-to-image
models in capturing long descriptions and fine details.