papers.description
Les modèles de diffusion peinent à dépasser les résolutions de leur entraînement, car l'échantillonnage direct en haute résolution est lent et coûteux, tandis que la super-résolution d'image post-hoc (ISR) introduit des artefacts et une latence supplémentaire en opérant après le décodage. Nous présentons le Latent Upscaler Adapter (LUA), un module léger qui effectue la super-résolution directement sur le code latent du générateur avant l'étape finale de décodage VAE. LUA s'intègre comme un composant prêt à l'emploi, ne nécessitant aucune modification du modèle de base ni d'étapes de diffusion supplémentaires, et permet une synthèse en haute résolution via un seul passage en avant dans l'espace latent. Une architecture partagée de type Swin avec des têtes de réorganisation de pixels spécifiques à l'échelle prend en charge des facteurs de 2x et 4x et reste compatible avec les bases de référence de super-résolution dans l'espace image, atteignant une qualité perceptuelle comparable avec un temps de décodage et de suréchantillonnage presque 3 fois inférieur (ajoutant seulement +0,42 s pour une génération de 1024 px à partir de 512 px, contre 1,87 s pour la super-résolution dans l'espace pixel utilisant la même architecture SwinIR). De plus, LUA montre une forte généralisation à travers les espaces latents de différents VAE, facilitant son déploiement sans nécessiter de réentraînement à partir de zéro pour chaque nouveau décodeur. Des expériences approfondies démontrent que LUA correspond étroitement à la fidélité de la génération native en haute résolution tout en offrant une voie pratique et efficace pour une synthèse d'image scalable et de haute fidélité dans les pipelines de diffusion modernes.