正しく理解する:テキストから画像生成モデルの空間的一貫性の向上
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
April 1, 2024
著者: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI
要旨
現在のテキストから画像生成(T2I)モデルの主要な欠点の一つは、テキストプロンプトで指定された空間関係を忠実に反映した画像を一貫して生成できないことです。本論文では、この制約を包括的に調査するとともに、最先端の性能を達成するデータセットと手法を開発します。まず、現在の視覚言語データセットは空間関係を十分に表現していないことがわかりました。このボトルネックを解消するため、広く使用されている4つの視覚データセットから600万枚の画像を再キャプション化し、初の空間関係に焦点を当てた大規模データセット「SPRIGHT」を作成しました。3段階の評価と分析パイプラインを通じて、SPRIGHTが既存のデータセットを大幅に改善し、空間関係をより適切に捉えていることを確認しました。その有効性を示すため、SPRIGHTのわずか約0.25%を活用し、空間的に正確な画像生成において22%の改善を達成するとともに、FIDおよびCMMDスコアも向上させました。次に、多数のオブジェクトを含む画像でトレーニングを行うことで、空間的一貫性が大幅に向上することがわかりました。特に、500枚未満の画像でファインチューニングを行い、T2I-CompBenchにおいて空間スコア0.2133で最先端の性能を達成しました。最後に、一連の制御実験とアブレーションを通じて、テキストから画像モデルの空間的一貫性に影響を与える要因の理解を深めると思われる複数の知見を記録しました。今後の研究を促進するため、データセットとモデルを公開します。
English
One of the key shortcomings in current text-to-image (T2I) models is their
inability to consistently generate images which faithfully follow the spatial
relationships specified in the text prompt. In this paper, we offer a
comprehensive investigation of this limitation, while also developing datasets
and methods that achieve state-of-the-art performance. First, we find that
current vision-language datasets do not represent spatial relationships well
enough; to alleviate this bottleneck, we create SPRIGHT, the first
spatially-focused, large scale dataset, by re-captioning 6 million images from
4 widely used vision datasets. Through a 3-fold evaluation and analysis
pipeline, we find that SPRIGHT largely improves upon existing datasets in
capturing spatial relationships. To demonstrate its efficacy, we leverage only
~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially
accurate images while also improving the FID and CMMD scores. Secondly, we find
that training on images containing a large number of objects results in
substantial improvements in spatial consistency. Notably, we attain
state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by
fine-tuning on <500 images. Finally, through a set of controlled experiments
and ablations, we document multiple findings that we believe will enhance the
understanding of factors that affect spatial consistency in text-to-image
models. We publicly release our dataset and model to foster further research in
this area.Summary
AI-Generated Summary