ChatPaper.aiChatPaper

InfGen: 확장 가능한 이미지 생성을 위한 해상도 독립적 패러다임

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

September 12, 2025
저자: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
cs.AI

초록

임의 해상도 이미지 생성은 다양한 기기에서 일관된 시각적 경험을 제공하며, 제작자와 소비자 모두에게 광범위한 응용 가능성을 가지고 있습니다. 현재의 확산 모델은 해상도가 증가함에 따라 계산 요구량이 제곱으로 증가하여 4K 이미지 생성 시 100초 이상의 지연이 발생합니다. 이를 해결하기 위해, 우리는 잠재 확산 모델의 다음 세대를 탐구합니다. 여기서 확산 모델에 의해 생성된 고정된 잠재 상태를 콘텐츠 표현으로 간주하고, 컴팩트한 생성 잠재 상태를 사용하여 임의 해상도의 이미지를 한 단계 생성기로 디코딩하는 방법을 제안합니다. 이를 통해 우리는 InfGen을 제시합니다. InfGen은 VAE 디코더를 새로운 생성기로 대체하여, 확산 모델을 재학습하지 않고도 고정 크기의 잠재 상태에서 임의 해상도의 이미지를 생성할 수 있게 합니다. 이는 프로세스를 단순화하고 계산 복잡성을 줄이며, 동일한 잠재 공간을 사용하는 모든 모델에 적용할 수 있습니다. 실험 결과, InfGen은 많은 모델을 임의 고해상도 시대로 개선하면서 4K 이미지 생성 시간을 10초 미만으로 단축할 수 있음을 보여줍니다.
English
Arbitrary resolution image generation provides a consistent visual experience across devices, having extensive applications for producers and consumers. Current diffusion models increase computational demand quadratically with resolution, causing 4K image generation delays over 100 seconds. To solve this, we explore the second generation upon the latent diffusion models, where the fixed latent generated by diffusion models is regarded as the content representation and we propose to decode arbitrary resolution images with a compact generated latent using a one-step generator. Thus, we present the InfGen, replacing the VAE decoder with the new generator, for generating images at any resolution from a fixed-size latent without retraining the diffusion models, which simplifies the process, reducing computational complexity and can be applied to any model using the same latent space. Experiments show InfGen is capable of improving many models into the arbitrary high-resolution era while cutting 4K image generation time to under 10 seconds.
PDF305September 15, 2025