InfGen : Un paradigme indépendant de la résolution pour la synthèse d'images évolutive
InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
September 12, 2025
papers.authors: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
cs.AI
papers.abstract
La génération d'images à résolution arbitraire offre une expérience visuelle cohérente
sur tous les appareils, avec des applications étendues pour les producteurs et les consommateurs.
Les modèles de diffusion actuels augmentent la demande de calcul de manière quadratique avec
la résolution, entraînant des délais de génération d'images 4K dépassant 100 secondes. Pour résoudre ce problème,
nous explorons la deuxième génération basée sur les modèles de diffusion latente, où
le latent fixe généré par les modèles de diffusion est considéré comme la représentation du contenu,
et nous proposons de décoder des images à résolution arbitraire à partir d'un latent compact
en utilisant un générateur en une seule étape. Ainsi, nous présentons InfGen, qui remplace
le décodeur VAE par ce nouveau générateur, permettant de générer des images à n'importe quelle résolution
à partir d'un latent de taille fixe sans avoir à réentraîner les modèles de diffusion. Cela simplifie le processus,
réduit la complexité computationnelle et peut être appliqué à tout modèle utilisant le même espace latent.
Les expériences montrent qu'InfGen est capable de faire évoluer de nombreux modèles vers l'ère de la haute résolution arbitraire
tout en réduisant le temps de génération d'images 4K à moins de 10 secondes.
English
Arbitrary resolution image generation provides a consistent visual experience
across devices, having extensive applications for producers and consumers.
Current diffusion models increase computational demand quadratically with
resolution, causing 4K image generation delays over 100 seconds. To solve this,
we explore the second generation upon the latent diffusion models, where the
fixed latent generated by diffusion models is regarded as the content
representation and we propose to decode arbitrary resolution images with a
compact generated latent using a one-step generator. Thus, we present the
InfGen, replacing the VAE decoder with the new generator, for
generating images at any resolution from a fixed-size latent without retraining
the diffusion models, which simplifies the process, reducing computational
complexity and can be applied to any model using the same latent space.
Experiments show InfGen is capable of improving many models into the arbitrary
high-resolution era while cutting 4K image generation time to under 10 seconds.