Scoperta non supervisionata di concetti composizionali con modelli generativi testo-immagine
Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models
June 8, 2023
Autori: Nan Liu, Yilun Du, Shuang Li, Joshua B. Tenenbaum, Antonio Torralba
cs.AI
Abstract
I modelli generativi text-to-image hanno reso possibile la sintesi di immagini ad alta risoluzione in diversi domini, ma richiedono agli utenti di specificare il contenuto che desiderano generare. In questo articolo, consideriamo il problema inverso: data una raccolta di immagini diverse, possiamo scoprire i concetti generativi che rappresentano ciascuna immagine? Presentiamo un approccio non supervisionato per scoprire concetti generativi da una raccolta di immagini, separando diversi stili artistici nei dipinti, oggetti e illuminazione nelle scene di cucina, e individuando classi di immagini date immagini di ImageNet. Mostriamo come tali concetti generativi possano rappresentare accuratamente il contenuto delle immagini, essere ricombinati e composti per generare nuove immagini artistiche e ibride, e ulteriormente utilizzati come rappresentazione per compiti di classificazione downstream.
English
Text-to-image generative models have enabled high-resolution image synthesis
across different domains, but require users to specify the content they wish to
generate. In this paper, we consider the inverse problem -- given a collection
of different images, can we discover the generative concepts that represent
each image? We present an unsupervised approach to discover generative concepts
from a collection of images, disentangling different art styles in paintings,
objects, and lighting from kitchen scenes, and discovering image classes given
ImageNet images. We show how such generative concepts can accurately represent
the content of images, be recombined and composed to generate new artistic and
hybrid images, and be further used as a representation for downstream
classification tasks.