ChatPaper.aiChatPaper

Selbstkonditionierte Bildgenerierung durch die Erzeugung von Repräsentationen

Self-conditioned Image Generation via Generating Representations

December 6, 2023
Autoren: Tianhong Li, Dina Katabi, Kaiming He
cs.AI

Zusammenfassung

Dieses Papier stellt Representation-Conditioned Image Generation (RCG) vor, ein einfaches, aber effektives Framework zur Bildgenerierung, das einen neuen Maßstab in der klassenunabhängigen Bildgenerierung setzt. RCG basiert nicht auf menschlichen Annotationen. Stattdessen basiert es auf einer selbstüberwachten Repräsentationsverteilung, die mithilfe eines vortrainierten Encoders aus der Bildverteilung abgebildet wird. Während der Generierung zieht RCG aus dieser Repräsentationsverteilung mithilfe eines Repräsentations-Diffusionsmodells (RDM) Stichproben und verwendet einen Pixel-Generator, um Bildpixel basierend auf der gezogenen Repräsentation zu erzeugen. Ein solches Design bietet eine erhebliche Führung während des Generierungsprozesses, was zu hochwertiger Bildgenerierung führt. Getestet auf ImageNet 256×256 erreicht RCG einen Fréchet Inception Distance (FID) von 3,31 und einen Inception Score (IS) von 253,4. Diese Ergebnisse verbessern nicht nur den Stand der Technik in der klassenunabhängigen Bildgenerierung erheblich, sondern konkurrieren auch mit den führenden Methoden in der klassenbedingten Bildgenerierung, wodurch die langjährige Leistungslücke zwischen diesen beiden Aufgaben geschlossen wird. Der Code ist verfügbar unter https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image Generation (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.
PDF90December 15, 2024