テキストから画像を生成するモデルを用いた教師なし構成概念の発見
Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models
June 8, 2023
著者: Nan Liu, Yilun Du, Shuang Li, Joshua B. Tenenbaum, Antonio Torralba
cs.AI
要旨
テキストから画像を生成するモデルは、さまざまなドメインで高解像度の画像合成を可能にしましたが、ユーザーが生成したい内容を指定する必要があります。本論文では、その逆問題を考察します——異なる画像のコレクションが与えられたとき、各画像を表現する生成概念を発見できるでしょうか?我々は、画像のコレクションから生成概念を発見する教師なしアプローチを提案し、絵画における異なる芸術スタイル、キッチンシーンにおける物体や照明、ImageNet画像における画像クラスを分離します。このような生成概念が画像の内容を正確に表現し、新しい芸術的およびハイブリッドな画像を生成するために再結合および構成できること、さらに下流の分類タスクの表現として使用できることを示します。
English
Text-to-image generative models have enabled high-resolution image synthesis
across different domains, but require users to specify the content they wish to
generate. In this paper, we consider the inverse problem -- given a collection
of different images, can we discover the generative concepts that represent
each image? We present an unsupervised approach to discover generative concepts
from a collection of images, disentangling different art styles in paintings,
objects, and lighting from kitchen scenes, and discovering image classes given
ImageNet images. We show how such generative concepts can accurately represent
the content of images, be recombined and composed to generate new artistic and
hybrid images, and be further used as a representation for downstream
classification tasks.