ChatPaper.aiChatPaper

InfGen: Um Paradigma Independente de Resolução para Síntese Escalável de Imagens

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

September 12, 2025
Autores: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
cs.AI

Resumo

A geração de imagens em resolução arbitrária proporciona uma experiência visual consistente em diferentes dispositivos, com amplas aplicações tanto para produtores quanto para consumidores. Os modelos de difusão atuais aumentam a demanda computacional quadraticamente com a resolução, resultando em atrasos de mais de 100 segundos para a geração de imagens em 4K. Para resolver isso, exploramos a segunda geração de modelos de difusão latente, onde o latente fixo gerado por modelos de difusão é considerado como a representação do conteúdo, e propomos decodificar imagens em resolução arbitrária a partir de um latente compacto usando um gerador de uma única etapa. Assim, apresentamos o InfGen, que substitui o decodificador VAE pelo novo gerador, permitindo a geração de imagens em qualquer resolução a partir de um latente de tamanho fixo sem a necessidade de retreinar os modelos de difusão. Isso simplifica o processo, reduz a complexidade computacional e pode ser aplicado a qualquer modelo que utilize o mesmo espaço latente. Experimentos mostram que o InfGen é capaz de levar muitos modelos para a era de alta resolução arbitrária, reduzindo o tempo de geração de imagens em 4K para menos de 10 segundos.
English
Arbitrary resolution image generation provides a consistent visual experience across devices, having extensive applications for producers and consumers. Current diffusion models increase computational demand quadratically with resolution, causing 4K image generation delays over 100 seconds. To solve this, we explore the second generation upon the latent diffusion models, where the fixed latent generated by diffusion models is regarded as the content representation and we propose to decode arbitrary resolution images with a compact generated latent using a one-step generator. Thus, we present the InfGen, replacing the VAE decoder with the new generator, for generating images at any resolution from a fixed-size latent without retraining the diffusion models, which simplifies the process, reducing computational complexity and can be applied to any model using the same latent space. Experiments show InfGen is capable of improving many models into the arbitrary high-resolution era while cutting 4K image generation time to under 10 seconds.
PDF305September 15, 2025