Latentraum-Super-Resolution für die Erzeugung höher aufgelöster Bilder mit Diffusionsmodellen
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models
March 24, 2025
Autoren: Jinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim
cs.AI
Zusammenfassung
In diesem Artikel stellen wir LSRNA vor, ein neuartiges Framework für die Erzeugung von Bildern mit höherer Auflösung (über 1K) mithilfe von Diffusionsmodellen, indem Super-Resolution direkt im latenten Raum genutzt wird. Bestehende Diffusionsmodelle haben Schwierigkeiten, über ihre Trainingsauflösungen hinaus zu skalieren, was oft zu strukturellen Verzerrungen oder Inhaltswiederholungen führt. Referenzbasierte Methoden adressieren diese Probleme, indem sie eine niedrigauflösende Referenz hochskalieren, um die Erzeugung höherer Auflösungen zu steuern. Sie stehen jedoch vor erheblichen Herausforderungen: Hochskalierung im latenten Raum führt oft zu Abweichungen in der Mannigfaltigkeit, was die Ausgabequalität beeinträchtigt. Andererseits führt Hochskalierung im RGB-Raum tendenziell zu übermäßig geglätteten Ergebnissen. Um diese Einschränkungen zu überwinden, kombiniert LSRNA Latent Space Super-Resolution (LSR) für die Mannigfaltigkeitsausrichtung und Region-wise Noise Addition (RNA) zur Verbesserung hochfrequenter Details. Unsere umfangreichen Experimente zeigen, dass die Integration von LSRNA referenzbasierte Methoden des State-of-the-Art in verschiedenen Auflösungen und Metriken übertrifft, während die entscheidende Rolle der Hochskalierung im latenten Raum für die Erhaltung von Details und Schärfe deutlich wird. Der Code ist verfügbar unter https://github.com/3587jjh/LSRNA.
English
In this paper, we propose LSRNA, a novel framework for higher-resolution
(exceeding 1K) image generation using diffusion models by leveraging
super-resolution directly in the latent space. Existing diffusion models
struggle with scaling beyond their training resolutions, often leading to
structural distortions or content repetition. Reference-based methods address
the issues by upsampling a low-resolution reference to guide higher-resolution
generation. However, they face significant challenges: upsampling in latent
space often causes manifold deviation, which degrades output quality. On the
other hand, upsampling in RGB space tends to produce overly smoothed outputs.
To overcome these limitations, LSRNA combines Latent space Super-Resolution
(LSR) for manifold alignment and Region-wise Noise Addition (RNA) to enhance
high-frequency details. Our extensive experiments demonstrate that integrating
LSRNA outperforms state-of-the-art reference-based methods across various
resolutions and metrics, while showing the critical role of latent space
upsampling in preserving detail and sharpness. The code is available at
https://github.com/3587jjh/LSRNA.Summary
AI-Generated Summary