ChatPaper.aiChatPaper

Un Petit Pas dans le Latent, un Grand Bond pour les Pixels : Adaptateur Rapide de Suréchantillonnage Latent pour vos Modèles de Diffusion

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

November 13, 2025
papers.authors: Aleksandr Razin, Danil Kazantsev, Ilya Makarov
cs.AI

papers.abstract

Les modèles de diffusion peinent à dépasser les résolutions de leur entraînement, car l'échantillonnage direct en haute résolution est lent et coûteux, tandis que la super-résolution d'image post-hoc (ISR) introduit des artefacts et une latence supplémentaire en opérant après le décodage. Nous présentons le Latent Upscaler Adapter (LUA), un module léger qui effectue la super-résolution directement sur le code latent du générateur avant l'étape finale de décodage VAE. LUA s'intègre comme un composant prêt à l'emploi, ne nécessitant aucune modification du modèle de base ni d'étapes de diffusion supplémentaires, et permet une synthèse en haute résolution via un seul passage en avant dans l'espace latent. Une architecture partagée de type Swin avec des têtes de réorganisation de pixels spécifiques à l'échelle prend en charge des facteurs de 2x et 4x et reste compatible avec les bases de référence de super-résolution dans l'espace image, atteignant une qualité perceptuelle comparable avec un temps de décodage et de suréchantillonnage presque 3 fois inférieur (ajoutant seulement +0,42 s pour une génération de 1024 px à partir de 512 px, contre 1,87 s pour la super-résolution dans l'espace pixel utilisant la même architecture SwinIR). De plus, LUA montre une forte généralisation à travers les espaces latents de différents VAE, facilitant son déploiement sans nécessiter de réentraînement à partir de zéro pour chaque nouveau décodeur. Des expériences approfondies démontrent que LUA correspond étroitement à la fidélité de la génération native en haute résolution tout en offrant une voie pratique et efficace pour une synthèse d'image scalable et de haute fidélité dans les pipelines de diffusion modernes.
English
Diffusion models struggle to scale beyond their training resolutions, as direct high-resolution sampling is slow and costly, while post-hoc image super-resolution (ISR) introduces artifacts and additional latency by operating after decoding. We present the Latent Upscaler Adapter (LUA), a lightweight module that performs super-resolution directly on the generator's latent code before the final VAE decoding step. LUA integrates as a drop-in component, requiring no modifications to the base model or additional diffusion stages, and enables high-resolution synthesis through a single feed-forward pass in latent space. A shared Swin-style backbone with scale-specific pixel-shuffle heads supports 2x and 4x factors and remains compatible with image-space SR baselines, achieving comparable perceptual quality with nearly 3x lower decoding and upscaling time (adding only +0.42 s for 1024 px generation from 512 px, compared to 1.87 s for pixel-space SR using the same SwinIR architecture). Furthermore, LUA shows strong generalization across the latent spaces of different VAEs, making it easy to deploy without retraining from scratch for each new decoder. Extensive experiments demonstrate that LUA closely matches the fidelity of native high-resolution generation while offering a practical and efficient path to scalable, high-fidelity image synthesis in modern diffusion pipelines.
PDF483November 15, 2025