InfGen: Парадигма синтеза изображений, независимая от разрешения, для масштабируемой генерации
InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
September 12, 2025
Авторы: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
cs.AI
Аннотация
Генерация изображений произвольного разрешения обеспечивает согласованный визуальный опыт на различных устройствах, что имеет широкое применение как для производителей, так и для потребителей. Современные диффузионные модели увеличивают вычислительные затраты квадратично с ростом разрешения, что приводит к задержкам в генерации 4K-изображений свыше 100 секунд. Для решения этой проблемы мы исследуем второе поколение латентных диффузионных моделей, где фиксированный латент, сгенерированный диффузионными моделями, рассматривается как представление контента, и предлагаем декодировать изображения произвольного разрешения с использованием компактного сгенерированного латента с помощью одношагового генератора. Таким образом, мы представляем InfGen, заменяющий декодер VAE новым генератором, для создания изображений любого разрешения из латента фиксированного размера без необходимости переобучения диффузионных моделей, что упрощает процесс, снижает вычислительную сложность и может быть применено к любой модели, использующей то же латентное пространство. Эксперименты показывают, что InfGen способен улучшить многие модели, выводя их в эру произвольного высокого разрешения, сокращая время генерации 4K-изображений до менее чем 10 секунд.
English
Arbitrary resolution image generation provides a consistent visual experience
across devices, having extensive applications for producers and consumers.
Current diffusion models increase computational demand quadratically with
resolution, causing 4K image generation delays over 100 seconds. To solve this,
we explore the second generation upon the latent diffusion models, where the
fixed latent generated by diffusion models is regarded as the content
representation and we propose to decode arbitrary resolution images with a
compact generated latent using a one-step generator. Thus, we present the
InfGen, replacing the VAE decoder with the new generator, for
generating images at any resolution from a fixed-size latent without retraining
the diffusion models, which simplifies the process, reducing computational
complexity and can be applied to any model using the same latent space.
Experiments show InfGen is capable of improving many models into the arbitrary
high-resolution era while cutting 4K image generation time to under 10 seconds.