Tout à toutes les échelles : Diffusion invariante d'échelle avec super-résolution continue

Résumé

Créer des images à partir de bruit, c'est la génération d'images ; reconstruire des détails fins à partir d'entrées grossières, c'est la super-résolution. Malgré leurs différences pratiques, ces deux tâches peuvent être comprises comme un processus de compensation de la perte d'information à travers les échelles. Nous présentons SKILD, un modèle de diffusion d'apprentissage d'images dans l'espace K invariant d'échelle, qui unifie la génération et la super-résolution continue au sein d'un seul cadre inconditionnel. Les images naturelles comme les systèmes physiques critiques présentent une invariance d'échelle, et nous exploitons cette propriété pour concevoir un processus direct qui atténue le contenu de l'image des échelles fines aux échelles grossières tout en injectant un bruit gaussien adapté au spectre, faisant de l'échelle une coordonnée explicite de la dynamique de diffusion. Le même processus inverse entraîné permet la génération et la super-résolution continue en ne modifiant que le pas de temps initial : pas d'architecture spécifique à la tâche, pas de branche de conditionnement, pas de guidage sans classifieur, pas de réentraînement par facteur d'échelle. Empiriquement, SKILD atteint un FID de 2,65 et un score Inception de 9,63 sur CIFAR-10 inconditionnel, réalise une super-résolution de ×2 à ×8 sur ImageNet à partir d'un seul point de contrôle inconditionnel tout en surpassant les modèles conditionnels selon des métriques perceptuelles, et reconstitue des modèles d'Ising critiques dont les corrélations à quatre points connectées suivent de près la vérité terrain.

English

Creating images from noise is image generation; reconstructing fine details from coarse inputs is super-resolution. Despite their practical differences, both can be understood as reversing information loss across scales. We introduce SKILD, a Scale-invariant K-Space Image Learning Diffusion model that unifies generation and continuous super-resolution within a single unconditional framework. Both natural images and critical physical systems exhibit scale invariance, and we leverage it to design a forward process that attenuates image content from fine to coarse scales while injecting spectrum-matched Gaussian noise, making scale an explicit coordinate of the diffusion dynamics. The same trained reverse process performs generation and continuous super-resolution by varying only the starting timestep: no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor. Empirically, SKILD reaches FID 2.65 and Inception Score 9.63 on unconditional CIFAR-10, performs 2times--8times super-resolution on ImageNet from a single unconditional checkpoint while outperforming conditional models across perceptual metrics, and reconstructs critical Ising models whose connected four-point correlations closely track the ground truth.