Selbstkonditionierte Bildgenerierung durch die Erzeugung von Repräsentationen
Self-conditioned Image Generation via Generating Representations
December 6, 2023
Autoren: Tianhong Li, Dina Katabi, Kaiming He
cs.AI
Zusammenfassung
Dieses Papier stellt Representation-Conditioned Image Generation (RCG) vor, ein einfaches, aber effektives Framework zur Bildgenerierung, das einen neuen Maßstab in der klassenunabhängigen Bildgenerierung setzt. RCG basiert nicht auf menschlichen Annotationen. Stattdessen basiert es auf einer selbstüberwachten Repräsentationsverteilung, die mithilfe eines vortrainierten Encoders aus der Bildverteilung abgebildet wird. Während der Generierung zieht RCG aus dieser Repräsentationsverteilung mithilfe eines Repräsentations-Diffusionsmodells (RDM) Stichproben und verwendet einen Pixel-Generator, um Bildpixel basierend auf der gezogenen Repräsentation zu erzeugen. Ein solches Design bietet eine erhebliche Führung während des Generierungsprozesses, was zu hochwertiger Bildgenerierung führt. Getestet auf ImageNet 256×256 erreicht RCG einen Fréchet Inception Distance (FID) von 3,31 und einen Inception Score (IS) von 253,4. Diese Ergebnisse verbessern nicht nur den Stand der Technik in der klassenunabhängigen Bildgenerierung erheblich, sondern konkurrieren auch mit den führenden Methoden in der klassenbedingten Bildgenerierung, wodurch die langjährige Leistungslücke zwischen diesen beiden Aufgaben geschlossen wird. Der Code ist verfügbar unter https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image
Generation (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.