JourneyDB: 生成画像理解のためのベンチマーク
JourneyDB: A Benchmark for Generative Image Understanding
July 3, 2023
著者: Junting Pan, Keqiang Sun, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Hongsheng Li
cs.AI
要旨
近年の視覚言語モデルの進歩はマルチモーダル理解に革命をもたらしましたが、生成された画像を理解する能力を備えているかどうかは依然として不明です。実データと比較して、合成画像は内容とスタイルの両方において多様性が高く、モデルが完全に理解するには大きな困難が伴います。この目的のために、生成画像におけるマルチモーダル視覚理解のための大規模データセット、JourneyDBを提案します。私たちが精選したデータセットは、それらを生成するために使用されたテキストプロンプトとペアになった400万枚の多様で高品質な生成画像をカバーしています。さらに、生成画像の理解性能を内容とスタイルの解釈の観点から定量化するために4つのベンチマークを設計しました。これらのベンチマークには、プロンプト逆変換、スタイル検索、画像キャプショニング、視覚的質問応答が含まれます。最後に、JourneyDBに適用した現在の最先端のマルチモーダルモデルの性能を評価し、生成された内容の理解におけるそれらの強みと限界について詳細な分析を提供します。提案されたデータセットとベンチマークが、生成内容理解の分野における研究を促進することを期待しています。データセットはhttps://journeydb.github.ioで公開されます。
English
While recent advancements in vision-language models have revolutionized
multi-modal understanding, it remains unclear whether they possess the
capabilities of comprehending the generated images. Compared to real data,
synthetic images exhibit a higher degree of diversity in both content and
style, for which there are significant difficulties for the models to fully
apprehend. To this end, we present a large-scale dataset, JourneyDB, for
multi-modal visual understanding in generative images. Our curated dataset
covers 4 million diverse and high-quality generated images paired with the text
prompts used to produce them. We further design 4 benchmarks to quantify the
performance of generated image understanding in terms of both content and style
interpretation. These benchmarks include prompt inversion, style retrieval,
image captioning and visual question answering. Lastly, we assess the
performance of current state-of-the-art multi-modal models when applied to
JourneyDB, and provide an in-depth analysis of their strengths and limitations
in generated content understanding. We hope the proposed dataset and benchmarks
will facilitate the research in the field of generative content understanding.
The dataset will be available on https://journeydb.github.io.