InfGen: Un Paradigma Independiente de la Resolución para la Síntesis Escalable de Imágenes
InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
September 12, 2025
Autores: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
cs.AI
Resumen
La generación de imágenes con resolución arbitraria proporciona una experiencia visual consistente en todos los dispositivos, con amplias aplicaciones tanto para productores como para consumidores. Los modelos de difusión actuales incrementan la demanda computacional de forma cuadrática con la resolución, lo que provoca retrasos de más de 100 segundos en la generación de imágenes en 4K. Para resolver esto, exploramos la segunda generación basada en los modelos de difusión latente, donde el latente fijo generado por los modelos de difusión se considera como la representación del contenido, y proponemos decodificar imágenes de resolución arbitraria utilizando un generador de un solo paso con un latente compacto. Así, presentamos InfGen, que reemplaza el decodificador VAE con este nuevo generador, permitiendo generar imágenes en cualquier resolución a partir de un latente de tamaño fijo sin necesidad de reentrenar los modelos de difusión. Esto simplifica el proceso, reduce la complejidad computacional y puede aplicarse a cualquier modelo que utilice el mismo espacio latente. Los experimentos muestran que InfGen es capaz de llevar muchos modelos a la era de la alta resolución arbitraria, reduciendo el tiempo de generación de imágenes en 4K a menos de 10 segundos.
English
Arbitrary resolution image generation provides a consistent visual experience
across devices, having extensive applications for producers and consumers.
Current diffusion models increase computational demand quadratically with
resolution, causing 4K image generation delays over 100 seconds. To solve this,
we explore the second generation upon the latent diffusion models, where the
fixed latent generated by diffusion models is regarded as the content
representation and we propose to decode arbitrary resolution images with a
compact generated latent using a one-step generator. Thus, we present the
InfGen, replacing the VAE decoder with the new generator, for
generating images at any resolution from a fixed-size latent without retraining
the diffusion models, which simplifies the process, reducing computational
complexity and can be applied to any model using the same latent space.
Experiments show InfGen is capable of improving many models into the arbitrary
high-resolution era while cutting 4K image generation time to under 10 seconds.