JourneyDB: Een Benchmark voor Generatief Beeldbegrip

Samenvatting

Hoewel recente vooruitgang in visie-taalmodellen een revolutie teweeg heeft gebracht in multimodale begripsvorming, blijft het onduidelijk of ze de capaciteiten bezitten om gegenereerde afbeeldingen te begrijpen. In vergelijking met echte data vertonen synthetische afbeeldingen een hogere mate van diversiteit in zowel inhoud als stijl, wat aanzienlijke moeilijkheden oplevert voor de modellen om deze volledig te bevatten. Daarom presenteren we een grootschalige dataset, JourneyDB, voor multimodaal visueel begrip in gegenereerde afbeeldingen. Onze samengestelde dataset omvat 4 miljoen diverse en hoogwaardige gegenereerde afbeeldingen, gekoppeld aan de tekstprompts die gebruikt zijn om ze te produceren. We ontwerpen verder 4 benchmarks om de prestaties van het begrip van gegenereerde afbeeldingen te kwantificeren, zowel in termen van inhoud als stijlinterpretatie. Deze benchmarks omvatten promptinversie, stijlretrieval, beeldbeschrijving en visuele vraagbeantwoording. Ten slotte evalueren we de prestaties van huidige state-of-the-art multimodale modellen wanneer ze worden toegepast op JourneyDB, en bieden we een diepgaande analyse van hun sterke punten en beperkingen in het begrijpen van gegenereerde inhoud. We hopen dat de voorgestelde dataset en benchmarks het onderzoek op het gebied van het begrijpen van gegenereerde inhoud zullen bevorderen. De dataset zal beschikbaar zijn op https://journeydb.github.io.

English

While recent advancements in vision-language models have revolutionized multi-modal understanding, it remains unclear whether they possess the capabilities of comprehending the generated images. Compared to real data, synthetic images exhibit a higher degree of diversity in both content and style, for which there are significant difficulties for the models to fully apprehend. To this end, we present a large-scale dataset, JourneyDB, for multi-modal visual understanding in generative images. Our curated dataset covers 4 million diverse and high-quality generated images paired with the text prompts used to produce them. We further design 4 benchmarks to quantify the performance of generated image understanding in terms of both content and style interpretation. These benchmarks include prompt inversion, style retrieval, image captioning and visual question answering. Lastly, we assess the performance of current state-of-the-art multi-modal models when applied to JourneyDB, and provide an in-depth analysis of their strengths and limitations in generated content understanding. We hope the proposed dataset and benchmarks will facilitate the research in the field of generative content understanding. The dataset will be available on https://journeydb.github.io.

JourneyDB: Een Benchmark voor Generatief Beeldbegrip

JourneyDB: A Benchmark for Generative Image Understanding

Samenvatting

Support