Latente Ruimte Superresolutie voor Generatie van Beelden met Hogere Resolutie met Diffusiemodellen
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models
March 24, 2025
Auteurs: Jinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim
cs.AI
Samenvatting
In dit artikel introduceren we LSRNA, een nieuw framework voor het genereren van afbeeldingen met een hogere resolutie (meer dan 1K) met behulp van diffusiemodellen door superresolutie direct in de latente ruimte toe te passen. Bestaande diffusiemodellen hebben moeite met het schalen voorbij hun trainingsresoluties, wat vaak leidt tot structurele vervormingen of inhoudsherhaling. Referentiegebaseerde methoden pakken deze problemen aan door een lage-resolutie referentie op te schalen om de generatie van hogere resoluties te begeleiden. Ze worden echter geconfronteerd met aanzienlijke uitdagingen: opschalen in de latente ruimte veroorzaakt vaak afwijkingen in het spruitstuk, wat de uitvoerkwaliteit vermindert. Aan de andere kant leidt opschalen in de RGB-ruimte vaak tot te veel uitgesmeerde resultaten. Om deze beperkingen te overwinnen, combineert LSRNA Latent Space Super-Resolution (LSR) voor spruitstukuitlijning en Region-wise Noise Addition (RNA) om hoogfrequente details te versterken. Onze uitgebreide experimenten tonen aan dat de integratie van LSRNA state-of-the-art referentiegebaseerde methoden overtreft op verschillende resoluties en metrieken, terwijl het de cruciale rol van opschalen in de latente ruimte aantoont bij het behouden van detail en scherpte. De code is beschikbaar op https://github.com/3587jjh/LSRNA.
English
In this paper, we propose LSRNA, a novel framework for higher-resolution
(exceeding 1K) image generation using diffusion models by leveraging
super-resolution directly in the latent space. Existing diffusion models
struggle with scaling beyond their training resolutions, often leading to
structural distortions or content repetition. Reference-based methods address
the issues by upsampling a low-resolution reference to guide higher-resolution
generation. However, they face significant challenges: upsampling in latent
space often causes manifold deviation, which degrades output quality. On the
other hand, upsampling in RGB space tends to produce overly smoothed outputs.
To overcome these limitations, LSRNA combines Latent space Super-Resolution
(LSR) for manifold alignment and Region-wise Noise Addition (RNA) to enhance
high-frequency details. Our extensive experiments demonstrate that integrating
LSRNA outperforms state-of-the-art reference-based methods across various
resolutions and metrics, while showing the critical role of latent space
upsampling in preserving detail and sharpness. The code is available at
https://github.com/3587jjh/LSRNA.Summary
AI-Generated Summary