Découverte non supervisée de concepts compositionnels avec des modèles génératifs texte-image
Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models
June 8, 2023
Auteurs: Nan Liu, Yilun Du, Shuang Li, Joshua B. Tenenbaum, Antonio Torralba
cs.AI
Résumé
Les modèles génératifs texte-image ont permis la synthèse d'images haute résolution dans différents domaines, mais nécessitent que les utilisateurs spécifient le contenu qu'ils souhaitent générer. Dans cet article, nous considérons le problème inverse -- étant donné une collection d'images diverses, pouvons-nous découvrir les concepts génératifs qui représentent chaque image ? Nous présentons une approche non supervisée pour découvrir des concepts génératifs à partir d'une collection d'images, en séparant différents styles artistiques dans les peintures, les objets et l'éclairage dans des scènes de cuisine, et en découvrant des classes d'images à partir d'images ImageNet. Nous montrons comment ces concepts génératifs peuvent représenter avec précision le contenu des images, être recombinés et composés pour générer de nouvelles images artistiques et hybrides, et être utilisés comme représentation pour des tâches de classification en aval.
English
Text-to-image generative models have enabled high-resolution image synthesis
across different domains, but require users to specify the content they wish to
generate. In this paper, we consider the inverse problem -- given a collection
of different images, can we discover the generative concepts that represent
each image? We present an unsupervised approach to discover generative concepts
from a collection of images, disentangling different art styles in paintings,
objects, and lighting from kitchen scenes, and discovering image classes given
ImageNet images. We show how such generative concepts can accurately represent
the content of images, be recombined and composed to generate new artistic and
hybrid images, and be further used as a representation for downstream
classification tasks.