ChatPaper.aiChatPaper

InfGen: Ein auflösungsunabhängiges Paradigma für skalierbare Bildsynthese

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

September 12, 2025
papers.authors: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
cs.AI

papers.abstract

Die Erzeugung von Bildern mit beliebiger Auflösung bietet ein konsistentes visuelles Erlebnis über verschiedene Geräte hinweg und findet umfangreiche Anwendungen für Produzenten und Konsumenten. Aktuelle Diffusionsmodelle steigern den Rechenaufwand quadratisch mit der Auflösung, was zu Verzögerungen von über 100 Sekunden bei der Generierung von 4K-Bildern führt. Um dies zu lösen, untersuchen wir die zweite Generation von latenten Diffusionsmodellen, bei denen das durch Diffusionsmodelle erzeugte feste Latent als Inhaltsrepräsentation betrachtet wird. Wir schlagen vor, Bilder mit beliebiger Auflösung aus einem kompakten generierten Latent mithilfe eines Ein-Schritt-Generators zu dekodieren. Daher präsentieren wir das InfGen, das den VAE-Decoder durch den neuen Generator ersetzt, um Bilder in jeder Auflösung aus einem Latent fester Größe zu erzeugen, ohne die Diffusionsmodelle neu trainieren zu müssen. Dies vereinfacht den Prozess, reduziert die Rechenkomplexität und kann auf jedes Modell angewendet werden, das denselben latenten Raum verwendet. Experimente zeigen, dass InfGen in der Lage ist, viele Modelle in die Ära der beliebig hohen Auflösung zu führen und gleichzeitig die Generierungszeit für 4K-Bilder auf unter 10 Sekunden zu verkürzen.
English
Arbitrary resolution image generation provides a consistent visual experience across devices, having extensive applications for producers and consumers. Current diffusion models increase computational demand quadratically with resolution, causing 4K image generation delays over 100 seconds. To solve this, we explore the second generation upon the latent diffusion models, where the fixed latent generated by diffusion models is regarded as the content representation and we propose to decode arbitrary resolution images with a compact generated latent using a one-step generator. Thus, we present the InfGen, replacing the VAE decoder with the new generator, for generating images at any resolution from a fixed-size latent without retraining the diffusion models, which simplifies the process, reducing computational complexity and can be applied to any model using the same latent space. Experiments show InfGen is capable of improving many models into the arbitrary high-resolution era while cutting 4K image generation time to under 10 seconds.
PDF305September 15, 2025