L'immersion normale universelle

Résumé

Les modèles génératifs et les encodeurs visuels ont largement progressé sur des voies distinctes, optimisés pour des objectifs différents et fondés sur des principes mathématiques différents. Pourtant, ils partagent une propriété fondamentale : la gaussianité de l'espace latent. Les modèles génératifs transforment un bruit gaussien en images, tandis que les encodeurs transforment les images en plongements sémantiques dont les coordonnées se comportent empiriquement comme des gaussiennes. Nous émettons l'hypothèse que les deux sont des vues d'une source latente partagée, le Plongement Normal Universel (UNE) : un espace latent approximativement gaussien à partir duquel les plongements des encodeurs et le bruit inversé par DDIM émergent comme des projections linéaires bruitées. Pour tester notre hypothèse, nous présentons NoiseZoo, un jeu de données de latents par image comprenant le bruit de diffusion inversé par DDIM et les représentations correspondantes des encodeurs (CLIP, DINO). Sur CelebA, des sondes linéaires dans les deux espaces produisent des prédictions d'attributs fortes et alignées, indiquant que le bruit génératif encode une sémantique significative le long de directions linéaires. Ces directions permettent en outre des modifications contrôlées et fidèles (par exemple, sourire, genre, âge) sans modification de l'architecture, où une simple orthogonalisation atténue les enchevêtrements parasites. Dans l'ensemble, nos résultats fournissent un soutien empirique à l'hypothèse UNE et révèlent une géométrie latente partagée de type gaussienne qui relie concrètement l'encodage et la génération. Le code et les données sont disponibles sur https://rbetser.github.io/UNE/

English

Generative models and vision encoders have largely advanced on separate tracks, optimized for different goals and grounded in different mathematical principles. Yet, they share a fundamental property: latent space Gaussianity. Generative models map Gaussian noise to images, while encoders map images to semantic embeddings whose coordinates empirically behave as Gaussian. We hypothesize that both are views of a shared latent source, the Universal Normal Embedding (UNE): an approximately Gaussian latent space from which encoder embeddings and DDIM-inverted noise arise as noisy linear projections. To test our hypothesis, we introduce NoiseZoo, a dataset of per-image latents comprising DDIM-inverted diffusion noise and matching encoder representations (CLIP, DINO). On CelebA, linear probes in both spaces yield strong, aligned attribute predictions, indicating that generative noise encodes meaningful semantics along linear directions. These directions further enable faithful, controllable edits (e.g., smile, gender, age) without architectural changes, where simple orthogonalization mitigates spurious entanglements. Taken together, our results provide empirical support for the UNE hypothesis and reveal a shared Gaussian-like latent geometry that concretely links encoding and generation. Code and data are available https://rbetser.github.io/UNE/

L'immersion normale universelle

The Universal Normal Embedding

Résumé

Support