JourneyDB: Een Benchmark voor Generatief Beeldbegrip
JourneyDB: A Benchmark for Generative Image Understanding
July 3, 2023
Auteurs: Junting Pan, Keqiang Sun, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Hongsheng Li
cs.AI
Samenvatting
Hoewel recente vooruitgang in visie-taalmodellen een revolutie teweeg heeft gebracht in multimodale begripsvorming, blijft het onduidelijk of ze de capaciteiten bezitten om gegenereerde afbeeldingen te begrijpen. In vergelijking met echte data vertonen synthetische afbeeldingen een hogere mate van diversiteit in zowel inhoud als stijl, wat aanzienlijke moeilijkheden oplevert voor de modellen om deze volledig te bevatten. Daarom presenteren we een grootschalige dataset, JourneyDB, voor multimodaal visueel begrip in gegenereerde afbeeldingen. Onze samengestelde dataset omvat 4 miljoen diverse en hoogwaardige gegenereerde afbeeldingen, gekoppeld aan de tekstprompts die gebruikt zijn om ze te produceren. We ontwerpen verder 4 benchmarks om de prestaties van het begrip van gegenereerde afbeeldingen te kwantificeren, zowel in termen van inhoud als stijlinterpretatie. Deze benchmarks omvatten promptinversie, stijlretrieval, beeldbeschrijving en visuele vraagbeantwoording. Ten slotte evalueren we de prestaties van huidige state-of-the-art multimodale modellen wanneer ze worden toegepast op JourneyDB, en bieden we een diepgaande analyse van hun sterke punten en beperkingen in het begrijpen van gegenereerde inhoud. We hopen dat de voorgestelde dataset en benchmarks het onderzoek op het gebied van het begrijpen van gegenereerde inhoud zullen bevorderen. De dataset zal beschikbaar zijn op https://journeydb.github.io.
English
While recent advancements in vision-language models have revolutionized
multi-modal understanding, it remains unclear whether they possess the
capabilities of comprehending the generated images. Compared to real data,
synthetic images exhibit a higher degree of diversity in both content and
style, for which there are significant difficulties for the models to fully
apprehend. To this end, we present a large-scale dataset, JourneyDB, for
multi-modal visual understanding in generative images. Our curated dataset
covers 4 million diverse and high-quality generated images paired with the text
prompts used to produce them. We further design 4 benchmarks to quantify the
performance of generated image understanding in terms of both content and style
interpretation. These benchmarks include prompt inversion, style retrieval,
image captioning and visual question answering. Lastly, we assess the
performance of current state-of-the-art multi-modal models when applied to
JourneyDB, and provide an in-depth analysis of their strengths and limitations
in generated content understanding. We hope the proposed dataset and benchmarks
will facilitate the research in the field of generative content understanding.
The dataset will be available on https://journeydb.github.io.