JourneyDB: Un punto de referencia para la comprensión generativa de imágenes
JourneyDB: A Benchmark for Generative Image Understanding
July 3, 2023
Autores: Junting Pan, Keqiang Sun, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Hongsheng Li
cs.AI
Resumen
Si bien los avances recientes en los modelos de visión y lenguaje han revolucionado la comprensión multimodal, aún no está claro si poseen las capacidades para comprender las imágenes generadas. En comparación con los datos reales, las imágenes sintéticas exhiben un mayor grado de diversidad tanto en contenido como en estilo, lo que presenta dificultades significativas para que los modelos las comprendan plenamente. Con este fin, presentamos un conjunto de datos a gran escala, JourneyDB, para la comprensión visual multimodal en imágenes generativas. Nuestro conjunto de datos cuidadosamente seleccionado abarca 4 millones de imágenes generadas diversas y de alta calidad, emparejadas con los textos de los prompts utilizados para producirlas. Además, diseñamos 4 puntos de referencia para cuantificar el rendimiento de la comprensión de imágenes generadas en términos de interpretación de contenido y estilo. Estos puntos de referencia incluyen inversión de prompts, recuperación de estilo, generación de descripciones de imágenes y respuesta a preguntas visuales. Por último, evaluamos el rendimiento de los modelos multimodales más avanzados cuando se aplican a JourneyDB, y proporcionamos un análisis detallado de sus fortalezas y limitaciones en la comprensión de contenido generado. Esperamos que el conjunto de datos y los puntos de referencia propuestos faciliten la investigación en el campo de la comprensión de contenido generativo. El conjunto de datos estará disponible en https://journeydb.github.io.
English
While recent advancements in vision-language models have revolutionized
multi-modal understanding, it remains unclear whether they possess the
capabilities of comprehending the generated images. Compared to real data,
synthetic images exhibit a higher degree of diversity in both content and
style, for which there are significant difficulties for the models to fully
apprehend. To this end, we present a large-scale dataset, JourneyDB, for
multi-modal visual understanding in generative images. Our curated dataset
covers 4 million diverse and high-quality generated images paired with the text
prompts used to produce them. We further design 4 benchmarks to quantify the
performance of generated image understanding in terms of both content and style
interpretation. These benchmarks include prompt inversion, style retrieval,
image captioning and visual question answering. Lastly, we assess the
performance of current state-of-the-art multi-modal models when applied to
JourneyDB, and provide an in-depth analysis of their strengths and limitations
in generated content understanding. We hope the proposed dataset and benchmarks
will facilitate the research in the field of generative content understanding.
The dataset will be available on https://journeydb.github.io.