ChatPaper.aiChatPaper

InfGen: Een resolutie-onafhankelijk paradigma voor schaalbare beeldgeneratie

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

September 12, 2025
Auteurs: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
cs.AI

Samenvatting

Het genereren van afbeeldingen met willekeurige resolutie biedt een consistente visuele ervaring over verschillende apparaten heen, met uitgebreide toepassingen voor producenten en consumenten. Huidige diffusiemodellen vergroten de rekenkundige vraag kwadratisch met de resolutie, wat resulteert in vertragingen van meer dan 100 seconden bij het genereren van 4K-afbeeldingen. Om dit op te lossen, verkennen we de tweede generatie van latente diffusiemodellen, waarbij de vaste latent gegenereerd door diffusiemodellen wordt beschouwd als de inhoudsrepresentatie en we voorstellen om afbeeldingen met willekeurige resolutie te decoderen met een compact gegenereerde latent met behulp van een één-staps generator. Zo presenteren we de InfGen, die de VAE-decoder vervangt door de nieuwe generator, voor het genereren van afbeeldingen met elke resolutie vanuit een latent met vaste grootte zonder de diffusiemodellen opnieuw te trainen, wat het proces vereenvoudigt, de rekenkundige complexiteit vermindert en kan worden toegepast op elk model dat dezelfde latente ruimte gebruikt. Experimenten tonen aan dat InfGen in staat is om veel modellen te verbeteren naar het tijdperk van willekeurige hoge resolutie, terwijl de generatietijd van 4K-afbeeldingen wordt teruggebracht tot minder dan 10 seconden.
English
Arbitrary resolution image generation provides a consistent visual experience across devices, having extensive applications for producers and consumers. Current diffusion models increase computational demand quadratically with resolution, causing 4K image generation delays over 100 seconds. To solve this, we explore the second generation upon the latent diffusion models, where the fixed latent generated by diffusion models is regarded as the content representation and we propose to decode arbitrary resolution images with a compact generated latent using a one-step generator. Thus, we present the InfGen, replacing the VAE decoder with the new generator, for generating images at any resolution from a fixed-size latent without retraining the diffusion models, which simplifies the process, reducing computational complexity and can be applied to any model using the same latent space. Experiments show InfGen is capable of improving many models into the arbitrary high-resolution era while cutting 4K image generation time to under 10 seconds.
PDF305September 15, 2025