DOCCI: Описания Связанных и Противоположных Изображений
DOCCI: Descriptions of Connected and Contrasting Images
April 30, 2024
Авторы: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI
Аннотация
Наборы данных по видению и языку являются важными как для исследований текст-к изображению (T2I), так и изображение-к тексту (I2T). Однако текущие наборы данных не содержат описаний с деталями высокой степени детализации, которые позволили бы моделям изучать более богатые ассоциации. Для заполнения этого пробела мы представляем набор данных "Описания связанных и контрастных изображений" (DOCCI), содержащий длинные, человеком аннотированные английские описания для 15 тыс. изображений, сделанных, отобранных и предоставленных одним исследователем с целью захвата ключевых вызовов, таких как пространственные отношения, подсчет, отображение текста, знание мира и другие. Мы инструктируем человеческих аннотаторов создавать исчерпывающие описания для каждого изображения; они в среднем составляют 136 слов и созданы для четкого различения каждого изображения от связанных или похожих. Каждое описание является высоко композиционным и обычно охватывает несколько вызовов. Через как количественный, так и качественный анализ мы демонстрируем, что DOCCI служит эффективным ресурсом для обучения генерации текста к изображению - модель PaLI 5B, донастроенная на DOCCI, показывает равные или превосходные результаты по сравнению с высокопроизводительными более крупными моделями, такими как LLaVA-1.5 7B и InstructBLIP 7B. Более того, мы показываем, что DOCCI является полезной площадкой для генерации текста к изображению, выявляя ограничения текущих моделей текст-к изображению в улавливании длинных описаний и деталей.
English
Vision-language datasets are vital for both text-to-image (T2I) and
image-to-text (I2T) research. However, current datasets lack descriptions with
fine-grained detail that would allow for richer associations to be learned by
models. To fill the gap, we introduce Descriptions of Connected and Contrasting
Images (DOCCI), a dataset with long, human-annotated English descriptions for
15k images that were taken, curated and donated by a single researcher intent
on capturing key challenges such as spatial relations, counting, text
rendering, world knowledge, and more. We instruct human annotators to create
comprehensive descriptions for each image; these average 136 words in length
and are crafted to clearly distinguish each image from those that are related
or similar. Each description is highly compositional and typically encompasses
multiple challenges. Through both quantitative and qualitative analyses, we
demonstrate that DOCCI serves as an effective training resource for
image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or
superior results compared to highly-performant larger models like LLaVA-1.5 7B
and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for
text-to-image generation, highlighting the limitations of current text-to-image
models in capturing long descriptions and fine details.Summary
AI-Generated Summary