Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión enfrentan dificultades para escalar más allá de las resoluciones de entrenamiento, ya que el muestreo directo en alta resolución es lento y costoso, mientras que la super-resolución de imágenes (ISR) aplicada a posteriori introduce artefactos y latencia adicional al operar después de la decodificación. Presentamos el Adaptador de Escalado Latente (LUA), un módulo ligero que realiza super-resolución directamente en el código latente del generador antes del paso final de decodificación del VAE. LUA se integra como un componente adicional, sin requerir modificaciones al modelo base ni etapas adicionales de difusión, y permite la síntesis de alta resolución mediante un único paso de propagación hacia adelante en el espacio latente. Un núcleo compartido de estilo Swin con cabezales específicos de escala basados en pixel-shuffle admite factores de 2x y 4x y mantiene compatibilidad con líneas base de SR en el espacio de imágenes, logrando una calidad perceptual comparable con un tiempo de decodificación y escalado casi 3 veces menor (añadiendo solo +0.42 s para la generación de 1024 px a partir de 512 px, en comparación con 1.87 s para SR en el espacio de píxeles utilizando la misma arquitectura SwinIR). Además, LUA muestra una fuerte generalización en los espacios latentes de diferentes VAEs, lo que facilita su implementación sin necesidad de reentrenar desde cero para cada nuevo decodificador. Experimentos extensos demuestran que LUA se acerca mucho a la fidelidad de la generación nativa en alta resolución, ofreciendo una ruta práctica y eficiente para la síntesis de imágenes escalable y de alta fidelidad en pipelines modernos de difusión.