ChatPaper.aiChatPaper

JourneyDB: 生成的画像理解のためのベンチマーク

JourneyDB: A Benchmark for Generative Image Understanding

July 3, 2023
著者: Junting Pan, Keqiang Sun, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Hongsheng Li
cs.AI

要旨

近年の視覚言語モデルの進歩はマルチモーダル理解に革命をもたらしたが、生成画像を理解する能力を本当に備えているかは未だ明らかではない。実写データと比較して、合成画像は内容とスタイルの両方において多様性が高く、モデルが完全に理解するには大きな困難が伴う。この課題に対処するため、我々は生成画像におけるマルチモーダル視覚理解のための大規模データセットJourneyDBを提案する。構築したデータセットは、400万点の多様で高品質な生成画像と、それらの生成に使用されたテキストプロンプトをペアとして包含する。さらに、生成画像理解の性能を内容解釈とスタイル解釈の両面から定量化するため、4つのベンチマークを設計した。これにはプロンプト逆変換、スタイル検索、画像キャプション生成、視覚質問応答が含まれる。最後に、JourneyDBに適用した現状の最先端マルチモーダルモデルの性能を評価し、生成コンテンツ理解における強みと限界について詳細な分析を提供する。提案するデータセットとベンチマークが、生成コンテンツ理解の分野における研究を促進することを期待する。データセットはhttps://journeydb.github.ioで公開予定である。
English
While recent advancements in vision-language models have revolutionized multi-modal understanding, it remains unclear whether they possess the capabilities of comprehending the generated images. Compared to real data, synthetic images exhibit a higher degree of diversity in both content and style, for which there are significant difficulties for the models to fully apprehend. To this end, we present a large-scale dataset, JourneyDB, for multi-modal visual understanding in generative images. Our curated dataset covers 4 million diverse and high-quality generated images paired with the text prompts used to produce them. We further design 4 benchmarks to quantify the performance of generated image understanding in terms of both content and style interpretation. These benchmarks include prompt inversion, style retrieval, image captioning and visual question answering. Lastly, we assess the performance of current state-of-the-art multi-modal models when applied to JourneyDB, and provide an in-depth analysis of their strengths and limitations in generated content understanding. We hope the proposed dataset and benchmarks will facilitate the research in the field of generative content understanding. The dataset will be available on https://journeydb.github.io.
PDF190December 15, 2024