Todo en cada escala: Difusión invariante a la escala con súper-resolución continua

Resumen

Crear imágenes a partir de ruido es generación de imágenes; reconstruir detalles finos a partir de entradas de baja resolución es superresolución. A pesar de sus diferencias prácticas, ambas pueden entenderse como la reversión de la pérdida de información a través de escalas. Presentamos SKILD, un modelo de difusión de aprendizaje de imágenes en el espacio K invariante a la escala que unifica la generación y la superresolución continua dentro de un único marco incondicional. Tanto las imágenes naturales como los sistemas físicos críticos exhiben invariancia de escala, y la aprovechamos para diseñar un proceso directo que atenúa el contenido de la imagen desde escalas finas a gruesas mientras inyecta ruido gaussiano ajustado al espectro, convirtiendo la escala en una coordenada explícita de la dinámica de difusión. El mismo proceso inverso entrenado realiza generación y superresolución continua variando únicamente el paso temporal inicial: sin arquitectura específica de tarea, sin rama de condicionamiento, sin guía libre de clasificador, sin reentrenamiento por factor de escala. Empíricamente, SKILD alcanza un FID de 2.65 y un Inception Score de 9.63 en CIFAR-10 incondicional, realiza superresolución de 2× a 8× en ImageNet desde un único punto de control incondicional, superando a los modelos condicionales en métricas perceptuales, y reconstruye modelos críticos de Ising cuyas correlaciones conectadas de cuatro puntos siguen de cerca la verdad fundamental.

English

Creating images from noise is image generation; reconstructing fine details from coarse inputs is super-resolution. Despite their practical differences, both can be understood as reversing information loss across scales. We introduce SKILD, a Scale-invariant K-Space Image Learning Diffusion model that unifies generation and continuous super-resolution within a single unconditional framework. Both natural images and critical physical systems exhibit scale invariance, and we leverage it to design a forward process that attenuates image content from fine to coarse scales while injecting spectrum-matched Gaussian noise, making scale an explicit coordinate of the diffusion dynamics. The same trained reverse process performs generation and continuous super-resolution by varying only the starting timestep: no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor. Empirically, SKILD reaches FID 2.65 and Inception Score 9.63 on unconditional CIFAR-10, performs 2times--8times super-resolution on ImageNet from a single unconditional checkpoint while outperforming conditional models across perceptual metrics, and reconstructs critical Ising models whose connected four-point correlations closely track the ground truth.