Latentraum-Super-Resolution für die Erzeugung höher aufgelöster Bilder mit Diffusionsmodellen

papers.abstract

In diesem Artikel stellen wir LSRNA vor, ein neuartiges Framework für die Erzeugung von Bildern mit höherer Auflösung (über 1K) mithilfe von Diffusionsmodellen, indem Super-Resolution direkt im latenten Raum genutzt wird. Bestehende Diffusionsmodelle haben Schwierigkeiten, über ihre Trainingsauflösungen hinaus zu skalieren, was oft zu strukturellen Verzerrungen oder Inhaltswiederholungen führt. Referenzbasierte Methoden adressieren diese Probleme, indem sie eine niedrigauflösende Referenz hochskalieren, um die Erzeugung höherer Auflösungen zu steuern. Sie stehen jedoch vor erheblichen Herausforderungen: Hochskalierung im latenten Raum führt oft zu Abweichungen in der Mannigfaltigkeit, was die Ausgabequalität beeinträchtigt. Andererseits führt Hochskalierung im RGB-Raum tendenziell zu übermäßig geglätteten Ergebnissen. Um diese Einschränkungen zu überwinden, kombiniert LSRNA Latent Space Super-Resolution (LSR) für die Mannigfaltigkeitsausrichtung und Region-wise Noise Addition (RNA) zur Verbesserung hochfrequenter Details. Unsere umfangreichen Experimente zeigen, dass die Integration von LSRNA referenzbasierte Methoden des State-of-the-Art in verschiedenen Auflösungen und Metriken übertrifft, während die entscheidende Rolle der Hochskalierung im latenten Raum für die Erhaltung von Details und Schärfe deutlich wird. Der Code ist verfügbar unter https://github.com/3587jjh/LSRNA.

English

In this paper, we propose LSRNA, a novel framework for higher-resolution (exceeding 1K) image generation using diffusion models by leveraging super-resolution directly in the latent space. Existing diffusion models struggle with scaling beyond their training resolutions, often leading to structural distortions or content repetition. Reference-based methods address the issues by upsampling a low-resolution reference to guide higher-resolution generation. However, they face significant challenges: upsampling in latent space often causes manifold deviation, which degrades output quality. On the other hand, upsampling in RGB space tends to produce overly smoothed outputs. To overcome these limitations, LSRNA combines Latent space Super-Resolution (LSR) for manifold alignment and Region-wise Noise Addition (RNA) to enhance high-frequency details. Our extensive experiments demonstrate that integrating LSRNA outperforms state-of-the-art reference-based methods across various resolutions and metrics, while showing the critical role of latent space upsampling in preserving detail and sharpness. The code is available at https://github.com/3587jjh/LSRNA.

Latentraum-Super-Resolution für die Erzeugung höher aufgelöster Bilder mit Diffusionsmodellen

Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models

papers.abstract

Support