De Universele Normale Inbedding

Samenvatting

Generatieve modellen en visuele encoders hebben zich grotendeels onafhankelijk ontwikkeld, geoptimaliseerd voor verschillende doelen en gebaseerd op verschillende wiskundige principes. Toch delen ze een fundamentele eigenschap: Gaussianiteit in de latente ruimte. Generatieve modellen transformeren Gaussische ruis naar afbeeldingen, terwijl encoders afbeeldingen afbeelden naar semantische embeddings waarvan de coördinaten empirisch een Gaussisch gedrag vertonen. Wij veronderstellen dat beide gezichtspunten zijn van een gedeelde latente bron, de Universeel Normale Embedding (UNE): een bij benadering Gaussische latente ruimte waaruit encoder-embeddings en DDIM-geïnverteerde ruis ontstaan als ruisvolle lineaire projecties. Om onze hypothese te testen, introduceren we NoiseZoo, een dataset van per-afbeelding latente representaties bestaande uit DDIM-geïnverteerde diffusieruis en bijbehorende encoderrepresentaties (CLIP, DINO). Op CelebA leveren lineaire probes in beide ruimten sterke, uitgelijnde attribuutvoorspellingen op, wat erop wijst dat generatieve ruis betekenisvolle semantiek codeert langs lineaire richtingen. Deze richtingen maken verder getrouwe, controleerbare bewerkingen mogelijk (bijv. glimlach, geslacht, leeftijd) zonder architectuurwijzigingen, waarbij eenvoudige orthogonalisatie ongewenste verstrengelingen vermindert. Samengenomen bieden onze resultaten empirische ondersteuning voor de UNE-hypothese en onthullen ze een gedeelde, Gaussiaans-aandoende latente geometrie die codering en generatie concreet met elkaar verbindt. Code en data zijn beschikbaar op https://rbetser.github.io/UNE/.

English

Generative models and vision encoders have largely advanced on separate tracks, optimized for different goals and grounded in different mathematical principles. Yet, they share a fundamental property: latent space Gaussianity. Generative models map Gaussian noise to images, while encoders map images to semantic embeddings whose coordinates empirically behave as Gaussian. We hypothesize that both are views of a shared latent source, the Universal Normal Embedding (UNE): an approximately Gaussian latent space from which encoder embeddings and DDIM-inverted noise arise as noisy linear projections. To test our hypothesis, we introduce NoiseZoo, a dataset of per-image latents comprising DDIM-inverted diffusion noise and matching encoder representations (CLIP, DINO). On CelebA, linear probes in both spaces yield strong, aligned attribute predictions, indicating that generative noise encodes meaningful semantics along linear directions. These directions further enable faithful, controllable edits (e.g., smile, gender, age) without architectural changes, where simple orthogonalization mitigates spurious entanglements. Taken together, our results provide empirical support for the UNE hypothesis and reveal a shared Gaussian-like latent geometry that concretely links encoding and generation. Code and data are available https://rbetser.github.io/UNE/

De Universele Normale Inbedding

The Universal Normal Embedding

Samenvatting

Support