Diffusion dans l'espace d'échelle

Résumé

Les modèles de diffusion dégradent les images par l'ajout de bruit, et inverser ce processus révèle une hiérarchie informationnelle à travers les pas de temps. La théorie de l'espace d'échelle présente une hiérarchie similaire via le filtrage passe-bas. Nous formalisons cette connexion et montrons que les états de diffusion fortement bruités ne contiennent pas plus d'information que de petites images sous-échantillonnées - ce qui soulève la question de savoir pourquoi ils doivent être traités à pleine résolution. Pour répondre à cela, nous fusionnons les espaces d'échelle dans le processus de diffusion en formulant une famille de modèles de diffusion avec des dégradations linéaires généralisées et des implémentations pratiques. L'utilisation du sous-échantillonnage comme dégradation donne notre modèle Scale Space Diffusion proposé. Pour supporter Scale Space Diffusion, nous introduisons Flexi-UNet, une variante d'UNet qui effectue un débruitage préservant et augmentant la résolution en utilisant uniquement les parties nécessaires du réseau. Nous évaluons notre cadre sur CelebA et ImageNet et analysons son comportement de mise à l'échelle à travers les résolutions et les profondeurs de réseau. Notre site web de projet ( https://prateksha.github.io/projects/scale-space-diffusion/ ) est disponible publiquement.

English

Diffusion models degrade images through noise, and reversing this process reveals an information hierarchy across timesteps. Scale-space theory exhibits a similar hierarchy via low-pass filtering. We formalize this connection and show that highly noisy diffusion states contain no more information than small, downsampled images - raising the question of why they must be processed at full resolution. To address this, we fuse scale spaces into the diffusion process by formulating a family of diffusion models with generalized linear degradations and practical implementations. Using downsampling as the degradation yields our proposed Scale Space Diffusion. To support Scale Space Diffusion, we introduce Flexi-UNet, a UNet variant that performs resolution-preserving and resolution-increasing denoising using only the necessary parts of the network. We evaluate our framework on CelebA and ImageNet and analyze its scaling behavior across resolutions and network depths. Our project website ( https://prateksha.github.io/projects/scale-space-diffusion/ ) is available publicly.