ChatPaper.aiChatPaper

Ein kleiner Schritt im Latenten, ein großer Sprung für Pixel: Schneller Latent-Upscale-Adapter für Ihre Diffusionsmodelle

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

November 13, 2025
papers.authors: Aleksandr Razin, Danil Kazantsev, Ilya Makarov
cs.AI

papers.abstract

Diffusionsmodelle haben Schwierigkeiten, über ihre Trainingsauflösungen hinaus zu skalieren, da das direkte Sampling in hoher Auflösung langsam und kostspielig ist, während die nachträgliche Bildsuperauflösung (Image Super-Resolution, ISR) Artefakte und zusätzliche Latenz durch die Operation nach der Dekodierung einführt. Wir präsentieren den Latent Upscaler Adapter (LUA), ein leichtgewichtiges Modul, das die Superauflösung direkt auf dem latenten Code des Generators vor dem finalen VAE-Dekodierungsschritt durchführt. LUA integriert sich als Drop-in-Komponente, erfordert keine Modifikationen des Basismodells oder zusätzliche Diffusionsstufen und ermöglicht die Synthese in hoher Auflösung durch einen einzigen Vorwärtsdurchlauf im latenten Raum. Ein gemeinsamer Swin-Stil-Backbone mit skalienspezifischen Pixel-Shuffle-Köpfen unterstützt 2x- und 4x-Faktoren und bleibt kompatibel mit Bildraum-SR-Baselines, wodurch eine vergleichbare wahrgenommene Qualität bei nahezu 3x geringerer Dekodierungs- und Upscaling-Zeit erreicht wird (nur +0,42 s für die 1024 px-Generierung aus 512 px im Vergleich zu 1,87 s für Pixelraum-SR unter Verwendung derselben SwinIR-Architektur). Darüber hinaus zeigt LUA eine starke Generalisierung über die latenten Räume verschiedener VAEs, was die einfache Bereitstellung ohne Neutraining von Grund auf für jeden neuen Decoder ermöglicht. Umfangreiche Experimente zeigen, dass LUA die Qualität der nativen Hochauflösungsgenerierung eng erreicht und gleichzeitig einen praktischen und effizienten Weg zur skalierbaren, hochqualitativen Bildsynthese in modernen Diffusionspipelines bietet.
English
Diffusion models struggle to scale beyond their training resolutions, as direct high-resolution sampling is slow and costly, while post-hoc image super-resolution (ISR) introduces artifacts and additional latency by operating after decoding. We present the Latent Upscaler Adapter (LUA), a lightweight module that performs super-resolution directly on the generator's latent code before the final VAE decoding step. LUA integrates as a drop-in component, requiring no modifications to the base model or additional diffusion stages, and enables high-resolution synthesis through a single feed-forward pass in latent space. A shared Swin-style backbone with scale-specific pixel-shuffle heads supports 2x and 4x factors and remains compatible with image-space SR baselines, achieving comparable perceptual quality with nearly 3x lower decoding and upscaling time (adding only +0.42 s for 1024 px generation from 512 px, compared to 1.87 s for pixel-space SR using the same SwinIR architecture). Furthermore, LUA shows strong generalization across the latent spaces of different VAEs, making it easy to deploy without retraining from scratch for each new decoder. Extensive experiments demonstrate that LUA closely matches the fidelity of native high-resolution generation while offering a practical and efficient path to scalable, high-fidelity image synthesis in modern diffusion pipelines.
PDF483November 15, 2025