Un Pequeño Paso en el Latente, un Gran Salto para los Píxeles: Adaptador Rápido de Escalado Latente para Tus Modelos de Difusión
One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models
November 13, 2025
Autores: Aleksandr Razin, Danil Kazantsev, Ilya Makarov
cs.AI
Resumen
Los modelos de difusión enfrentan dificultades para escalar más allá de las resoluciones de entrenamiento, ya que el muestreo directo en alta resolución es lento y costoso, mientras que la super-resolución de imágenes (ISR) aplicada a posteriori introduce artefactos y latencia adicional al operar después de la decodificación. Presentamos el Adaptador de Escalado Latente (LUA), un módulo ligero que realiza super-resolución directamente en el código latente del generador antes del paso final de decodificación del VAE. LUA se integra como un componente adicional, sin requerir modificaciones al modelo base ni etapas adicionales de difusión, y permite la síntesis de alta resolución mediante un único paso de propagación hacia adelante en el espacio latente. Un núcleo compartido de estilo Swin con cabezales específicos de escala basados en pixel-shuffle admite factores de 2x y 4x y mantiene compatibilidad con líneas base de SR en el espacio de imágenes, logrando una calidad perceptual comparable con un tiempo de decodificación y escalado casi 3 veces menor (añadiendo solo +0.42 s para la generación de 1024 px a partir de 512 px, en comparación con 1.87 s para SR en el espacio de píxeles utilizando la misma arquitectura SwinIR). Además, LUA muestra una fuerte generalización en los espacios latentes de diferentes VAEs, lo que facilita su implementación sin necesidad de reentrenar desde cero para cada nuevo decodificador. Experimentos extensos demuestran que LUA se acerca mucho a la fidelidad de la generación nativa en alta resolución, ofreciendo una ruta práctica y eficiente para la síntesis de imágenes escalable y de alta fidelidad en pipelines modernos de difusión.
English
Diffusion models struggle to scale beyond their training resolutions, as direct high-resolution sampling is slow and costly, while post-hoc image super-resolution (ISR) introduces artifacts and additional latency by operating after decoding. We present the Latent Upscaler Adapter (LUA), a lightweight module that performs super-resolution directly on the generator's latent code before the final VAE decoding step. LUA integrates as a drop-in component, requiring no modifications to the base model or additional diffusion stages, and enables high-resolution synthesis through a single feed-forward pass in latent space. A shared Swin-style backbone with scale-specific pixel-shuffle heads supports 2x and 4x factors and remains compatible with image-space SR baselines, achieving comparable perceptual quality with nearly 3x lower decoding and upscaling time (adding only +0.42 s for 1024 px generation from 512 px, compared to 1.87 s for pixel-space SR using the same SwinIR architecture). Furthermore, LUA shows strong generalization across the latent spaces of different VAEs, making it easy to deploy without retraining from scratch for each new decoder. Extensive experiments demonstrate that LUA closely matches the fidelity of native high-resolution generation while offering a practical and efficient path to scalable, high-fidelity image synthesis in modern diffusion pipelines.