La Inmersión Normal Universal

Resumen

Los modelos generativos y los codificadores de visión han avanzado en gran medida por caminos separados, optimizados para objetivos diferentes y basados en principios matemáticos distintos. Sin embargo, comparten una propiedad fundamental: la Gaussianidad del espacio latente. Los modelos generativos mapean ruido gaussiano a imágenes, mientras que los codificadores mapean imágenes a incrustaciones semánticas cuyas coordenadas se comportan empíricamente como gaussianas. Nuestra hipótesis postula que ambos son visiones de una fuente latente compartida, la Incrustación Normal Universal (UNE, por sus siglas en inglés): un espacio latente aproximadamente gaussiano del cual surgen las incrustaciones del codificador y el ruido invertido por DDIM como proyecciones lineales ruidosas. Para probar nuestra hipótesis, presentamos NoiseZoo, un conjunto de datos de latentes por imagen que comprende ruido de difusión invertido por DDIM y representaciones coincidentes del codificador (CLIP, DINO). En CelebA, los sondeos lineales en ambos espacios producen predicciones de atributos sólidas y alineadas, lo que indica que el ruido generativo codifica semántica significativa a lo largo de direcciones lineales. Estas direcciones permiten además ediciones controladas y fieles (por ejemplo, sonrisa, género, edad) sin cambios arquitectónicos, donde una simple ortogonalización mitiga los enredos espurios. En conjunto, nuestros resultados proporcionan apoyo empírico a la hipótesis UNE y revelan una geometría latente gaussiana compartida que vincula concretamente la codificación y la generación. El código y los datos están disponibles en https://rbetser.github.io/UNE/.

English

Generative models and vision encoders have largely advanced on separate tracks, optimized for different goals and grounded in different mathematical principles. Yet, they share a fundamental property: latent space Gaussianity. Generative models map Gaussian noise to images, while encoders map images to semantic embeddings whose coordinates empirically behave as Gaussian. We hypothesize that both are views of a shared latent source, the Universal Normal Embedding (UNE): an approximately Gaussian latent space from which encoder embeddings and DDIM-inverted noise arise as noisy linear projections. To test our hypothesis, we introduce NoiseZoo, a dataset of per-image latents comprising DDIM-inverted diffusion noise and matching encoder representations (CLIP, DINO). On CelebA, linear probes in both spaces yield strong, aligned attribute predictions, indicating that generative noise encodes meaningful semantics along linear directions. These directions further enable faithful, controllable edits (e.g., smile, gender, age) without architectural changes, where simple orthogonalization mitigates spurious entanglements. Taken together, our results provide empirical support for the UNE hypothesis and reveal a shared Gaussian-like latent geometry that concretely links encoding and generation. Code and data are available https://rbetser.github.io/UNE/

La Inmersión Normal Universal

The Universal Normal Embedding

Resumen

Support