DOCCI: Descripciones de Imágenes Conectadas y Contrastantes
DOCCI: Descriptions of Connected and Contrasting Images
April 30, 2024
Autores: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI
Resumen
Los conjuntos de datos de visión y lenguaje son fundamentales tanto para la investigación de texto a imagen (T2I) como de imagen a texto (I2T). Sin embargo, los conjuntos de datos actuales carecen de descripciones con un nivel de detalle fino que permita a los modelos aprender asociaciones más ricas. Para llenar este vacío, presentamos Descriptions of Connected and Contrasting Images (DOCCI), un conjunto de datos con descripciones largas y anotadas manualmente en inglés para 15,000 imágenes que fueron capturadas, curadas y donadas por un único investigador con el objetivo de capturar desafíos clave como relaciones espaciales, conteo, representación de texto, conocimiento del mundo y más. Instruimos a los anotadores humanos para que creen descripciones exhaustivas de cada imagen; estas tienen un promedio de 136 palabras de longitud y están diseñadas para distinguir claramente cada imagen de aquellas que están relacionadas o son similares. Cada descripción es altamente composicional y generalmente abarca múltiples desafíos. A través de análisis tanto cuantitativos como cualitativos, demostramos que DOCCI sirve como un recurso de entrenamiento efectivo para la generación de imagen a texto: un modelo PaLI 5B ajustado con DOCCI muestra resultados iguales o superiores en comparación con modelos más grandes y de alto rendimiento como LLaVA-1.5 7B e InstructBLIP 7B. Además, mostramos que DOCCI es un banco de pruebas útil para la generación de texto a imagen, destacando las limitaciones de los modelos actuales de texto a imagen para capturar descripciones largas y detalles finos.
English
Vision-language datasets are vital for both text-to-image (T2I) and
image-to-text (I2T) research. However, current datasets lack descriptions with
fine-grained detail that would allow for richer associations to be learned by
models. To fill the gap, we introduce Descriptions of Connected and Contrasting
Images (DOCCI), a dataset with long, human-annotated English descriptions for
15k images that were taken, curated and donated by a single researcher intent
on capturing key challenges such as spatial relations, counting, text
rendering, world knowledge, and more. We instruct human annotators to create
comprehensive descriptions for each image; these average 136 words in length
and are crafted to clearly distinguish each image from those that are related
or similar. Each description is highly compositional and typically encompasses
multiple challenges. Through both quantitative and qualitative analyses, we
demonstrate that DOCCI serves as an effective training resource for
image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or
superior results compared to highly-performant larger models like LLaVA-1.5 7B
and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for
text-to-image generation, highlighting the limitations of current text-to-image
models in capturing long descriptions and fine details.Summary
AI-Generated Summary