Alles op elke schaal: schaalinvariante diffusie met continue superresolutie

Samenvatting

Beelden creëren uit ruis is beeldgeneratie; het reconstrueren van fijne details uit grove invoer is superresolutie. Ondanks hun praktische verschillen kunnen beide worden begrepen als het omkeren van informatieverlies over schalen heen. We introduceren SKILD, een schaal-invariante K-space Image Learning Diffusion model dat generatie en continue superresolutie verenigt binnen één enkel onvoorwaardelijk raamwerk. Zowel natuurlijke beelden als kritische fysieke systemen vertonen schaalinvariantie, en we benutten dit om een forward-proces te ontwerpen dat beeldinhoud verzwakt van fijne naar grove schalen, terwijl spectrum-gematchte Gaussiaanse ruis wordt geïnjecteerd, waardoor schaal een expliciete coördinaat van de diffusiedynamiek wordt. Hetzelfde getrainde reverse-proces voert generatie en continue superresolutie uit door alleen de starttijdstap te variëren: geen taakspecifieke architectuur, geen conditioneringstak, geen classifier-vrije begeleiding, geen hertraining per schaalfactor. Empirisch bereikt SKILD FID 2,65 en Inception Score 9,63 op onvoorwaardelijke CIFAR-10, voert 2×–8× superresolutie uit op ImageNet vanuit een enkel onvoorwaardelijk controlepunt, presteert beter dan conditionele modellen op perceptuele metrieken, en reconstrueert kritische Ising-modellen waarvan de verbonden vierpuntscorrelaties de grondwaarheid nauwkeurig volgen.

English

Creating images from noise is image generation; reconstructing fine details from coarse inputs is super-resolution. Despite their practical differences, both can be understood as reversing information loss across scales. We introduce SKILD, a Scale-invariant K-Space Image Learning Diffusion model that unifies generation and continuous super-resolution within a single unconditional framework. Both natural images and critical physical systems exhibit scale invariance, and we leverage it to design a forward process that attenuates image content from fine to coarse scales while injecting spectrum-matched Gaussian noise, making scale an explicit coordinate of the diffusion dynamics. The same trained reverse process performs generation and continuous super-resolution by varying only the starting timestep: no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor. Empirically, SKILD reaches FID 2.65 and Inception Score 9.63 on unconditional CIFAR-10, performs 2times--8times super-resolution on ImageNet from a single unconditional checkpoint while outperforming conditional models across perceptual metrics, and reconstructs critical Ising models whose connected four-point correlations closely track the ground truth.