JourneyDB: Ein Benchmark für das Verständnis generativer Bilder
JourneyDB: A Benchmark for Generative Image Understanding
July 3, 2023
Autoren: Junting Pan, Keqiang Sun, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Hongsheng Li
cs.AI
Zusammenfassung
Während die jüngsten Fortschritte in Vision-Sprache-Modellen das multimodale Verständnis revolutioniert haben, bleibt unklar, ob sie die Fähigkeit besitzen, die generierten Bilder zu verstehen. Im Vergleich zu realen Daten weisen synthetische Bilder einen höheren Grad an Vielfalt in Bezug auf Inhalt und Stil auf, was für die Modelle erhebliche Schwierigkeiten darstellt, sie vollständig zu erfassen. Zu diesem Zweck stellen wir einen groß angelegten Datensatz, JourneyDB, für das multimodale visuelle Verständnis in generierten Bildern vor. Unser kuratierter Datensatz umfasst 4 Millionen vielfältige und hochwertige generierte Bilder, die mit den Textprompts gepaart sind, die zu ihrer Erstellung verwendet wurden. Wir entwerfen weiterhin 4 Benchmarks, um die Leistung des Verständnisses generierter Bilder in Bezug auf Inhalts- und Stilinterpretation zu quantifizieren. Diese Benchmarks umfassen Prompt-Inversion, Stil-Retrieval, Bildbeschreibung und visuelle Fragebeantwortung. Schließlich bewerten wir die Leistung aktueller state-of-the-art multimodaler Modelle, wenn sie auf JourneyDB angewendet werden, und bieten eine detaillierte Analyse ihrer Stärken und Schwächen im Verständnis generierter Inhalte. Wir hoffen, dass der vorgeschlagene Datensatz und die Benchmarks die Forschung im Bereich des Verständnisses generierter Inhalte fördern werden. Der Datensatz wird unter https://journeydb.github.io verfügbar sein.
English
While recent advancements in vision-language models have revolutionized
multi-modal understanding, it remains unclear whether they possess the
capabilities of comprehending the generated images. Compared to real data,
synthetic images exhibit a higher degree of diversity in both content and
style, for which there are significant difficulties for the models to fully
apprehend. To this end, we present a large-scale dataset, JourneyDB, for
multi-modal visual understanding in generative images. Our curated dataset
covers 4 million diverse and high-quality generated images paired with the text
prompts used to produce them. We further design 4 benchmarks to quantify the
performance of generated image understanding in terms of both content and style
interpretation. These benchmarks include prompt inversion, style retrieval,
image captioning and visual question answering. Lastly, we assess the
performance of current state-of-the-art multi-modal models when applied to
JourneyDB, and provide an in-depth analysis of their strengths and limitations
in generated content understanding. We hope the proposed dataset and benchmarks
will facilitate the research in the field of generative content understanding.
The dataset will be available on https://journeydb.github.io.