Alles auf allen Skalen: Skaleninvariante Diffusion mit kontinuierlicher Superauflösung

Zusammenfassung

Die Erzeugung von Bildern aus Rauschen ist Bildgenerierung; die Rekonstruktion feiner Details aus groben Eingaben ist Superauflösung. Trotz ihrer praktischen Unterschiede können beide als Umkehrung von Informationsverlust über Skalen hinweg verstanden werden. Wir stellen SKILD vor, ein skaleninvariantes K-Raum-Bildlern-Diffusionsmodell, das Generierung und kontinuierliche Superauflösung in einem einzigen unbedingten Framework vereint. Sowohl natürliche Bilder als auch kritische physikalische Systeme weisen Skaleninvarianz auf, und wir nutzen diese, um einen Vorwärtsprozess zu entwerfen, der Bildinhalte von feinen zu groben Skalen abschwächt und gleichzeitig spektrumangepasstes gaußsches Rauschen injiziert, wodurch die Skala zu einer expliziten Koordinate der Diffusionsdynamik wird. Derselbe trainierte Rückwärtsprozess führt Generierung und kontinuierliche Superauflösung durch, indem lediglich der Startzeitschritt variiert wird: keine aufgabenspezifische Architektur, kein Konditionierungszweig, keine klassifikatorfreie Führung, kein erneutes Training pro Skalierungsfaktor. Empirisch erreicht SKILD einen FID von 2,65 und einen Inception-Score von 9,63 auf unbedingtem CIFAR-10, führt 2×–8× Superauflösung auf ImageNet von einem einzigen unbedingten Prüfpunkt aus durch und übertrifft dabei konditionale Modelle in Wahrnehmungsmetriken, und rekonstruiert kritische Ising-Modelle, deren verbundene Vierpunktkorrelationen eng mit der Grundwahrheit übereinstimmen.

English

Creating images from noise is image generation; reconstructing fine details from coarse inputs is super-resolution. Despite their practical differences, both can be understood as reversing information loss across scales. We introduce SKILD, a Scale-invariant K-Space Image Learning Diffusion model that unifies generation and continuous super-resolution within a single unconditional framework. Both natural images and critical physical systems exhibit scale invariance, and we leverage it to design a forward process that attenuates image content from fine to coarse scales while injecting spectrum-matched Gaussian noise, making scale an explicit coordinate of the diffusion dynamics. The same trained reverse process performs generation and continuous super-resolution by varying only the starting timestep: no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor. Empirically, SKILD reaches FID 2.65 and Inception Score 9.63 on unconditional CIFAR-10, performs 2times--8times super-resolution on ImageNet from a single unconditional checkpoint while outperforming conditional models across perceptual metrics, and reconstructs critical Ising models whose connected four-point correlations closely track the ground truth.