InfGen: Un Paradigma Indipendente dalla Risoluzione per la Sintesi Scalabile di Immagini
InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
September 12, 2025
Autori: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
cs.AI
Abstract
La generazione di immagini a risoluzione arbitraria offre un'esperienza visiva coerente su diversi dispositivi, con ampie applicazioni sia per i produttori che per i consumatori. Gli attuali modelli di diffusione aumentano la domanda computazionale in modo quadratico con la risoluzione, causando ritardi superiori a 100 secondi nella generazione di immagini 4K. Per risolvere questo problema, esploriamo la seconda generazione basata sui modelli di diffusione latente, in cui il latente fisso generato dai modelli di diffusione è considerato come rappresentazione del contenuto, e proponiamo di decodificare immagini a risoluzione arbitraria utilizzando un generatore a un solo passo con un latente compatto. Presentiamo quindi InfGen, che sostituisce il decodificatore VAE con il nuovo generatore, per generare immagini a qualsiasi risoluzione da un latente di dimensioni fisse senza dover riaddestrare i modelli di diffusione, semplificando il processo, riducendo la complessità computazionale e applicabile a qualsiasi modello che utilizza lo stesso spazio latente. Gli esperimenti dimostrano che InfGen è in grado di portare molti modelli nell'era dell'alta risoluzione arbitraria, riducendo il tempo di generazione delle immagini 4K a meno di 10 secondi.
English
Arbitrary resolution image generation provides a consistent visual experience
across devices, having extensive applications for producers and consumers.
Current diffusion models increase computational demand quadratically with
resolution, causing 4K image generation delays over 100 seconds. To solve this,
we explore the second generation upon the latent diffusion models, where the
fixed latent generated by diffusion models is regarded as the content
representation and we propose to decode arbitrary resolution images with a
compact generated latent using a one-step generator. Thus, we present the
InfGen, replacing the VAE decoder with the new generator, for
generating images at any resolution from a fixed-size latent without retraining
the diffusion models, which simplifies the process, reducing computational
complexity and can be applied to any model using the same latent space.
Experiments show InfGen is capable of improving many models into the arbitrary
high-resolution era while cutting 4K image generation time to under 10 seconds.