ChatPaper.aiChatPaper

Latente Ruimte Superresolutie voor Generatie van Beelden met Hogere Resolutie met Diffusiemodellen

Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models

March 24, 2025
Auteurs: Jinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim
cs.AI

Samenvatting

In dit artikel introduceren we LSRNA, een nieuw framework voor het genereren van afbeeldingen met een hogere resolutie (meer dan 1K) met behulp van diffusiemodellen door superresolutie direct in de latente ruimte toe te passen. Bestaande diffusiemodellen hebben moeite met het schalen voorbij hun trainingsresoluties, wat vaak leidt tot structurele vervormingen of inhoudsherhaling. Referentiegebaseerde methoden pakken deze problemen aan door een lage-resolutie referentie op te schalen om de generatie van hogere resoluties te begeleiden. Ze worden echter geconfronteerd met aanzienlijke uitdagingen: opschalen in de latente ruimte veroorzaakt vaak afwijkingen in het spruitstuk, wat de uitvoerkwaliteit vermindert. Aan de andere kant leidt opschalen in de RGB-ruimte vaak tot te veel uitgesmeerde resultaten. Om deze beperkingen te overwinnen, combineert LSRNA Latent Space Super-Resolution (LSR) voor spruitstukuitlijning en Region-wise Noise Addition (RNA) om hoogfrequente details te versterken. Onze uitgebreide experimenten tonen aan dat de integratie van LSRNA state-of-the-art referentiegebaseerde methoden overtreft op verschillende resoluties en metrieken, terwijl het de cruciale rol van opschalen in de latente ruimte aantoont bij het behouden van detail en scherpte. De code is beschikbaar op https://github.com/3587jjh/LSRNA.
English
In this paper, we propose LSRNA, a novel framework for higher-resolution (exceeding 1K) image generation using diffusion models by leveraging super-resolution directly in the latent space. Existing diffusion models struggle with scaling beyond their training resolutions, often leading to structural distortions or content repetition. Reference-based methods address the issues by upsampling a low-resolution reference to guide higher-resolution generation. However, they face significant challenges: upsampling in latent space often causes manifold deviation, which degrades output quality. On the other hand, upsampling in RGB space tends to produce overly smoothed outputs. To overcome these limitations, LSRNA combines Latent space Super-Resolution (LSR) for manifold alignment and Region-wise Noise Addition (RNA) to enhance high-frequency details. Our extensive experiments demonstrate that integrating LSRNA outperforms state-of-the-art reference-based methods across various resolutions and metrics, while showing the critical role of latent space upsampling in preserving detail and sharpness. The code is available at https://github.com/3587jjh/LSRNA.

Summary

AI-Generated Summary

PDF101March 26, 2025