O Mergulho Normal Universal

Resumo

Os modelos generativos e os codificadores de visão evoluíram amplamente em trilhas separadas, otimizados para objetivos diferentes e fundamentados em princípios matemáticos distintos. No entanto, eles compartilham uma propriedade fundamental: a gaussianidade do espaço latente. Os modelos generativos mapeiam ruído gaussiano para imagens, enquanto os codificadores mapeiam imagens para incorporações semânticas cujas coordenadas se comportam empiricamente como gaussianas. Nossa hipótese é que ambos são visões de uma fonte latente compartilhada, a Incorporação Normal Universal (UNE): um espaço latente aproximadamente gaussiano do qual as incorporações do codificador e o ruído invertido por DDIM surgem como projeções lineares ruidosas. Para testar nossa hipótese, introduzimos o NoiseZoo, um conjunto de dados de latentes por imagem que compreende ruído de difusão invertido por DDIM e representações correspondentes do codificador (CLIP, DINO). No CelebA, sondas lineares em ambos os espaços produzem fortes previsões de atributos alinhadas, indicando que o ruído generativo codifica semântica significativa ao longo de direções lineares. Essas direções ainda permitem edições controladas e fiéis (por exemplo, sorriso, gênero, idade) sem alterações arquiteturais, onde uma simples ortogonalização mitiga emaranhamentos espúrios. Em conjunto, nossos resultados fornecem suporte empírico para a hipótese UNE e revelam uma geometria latente gaussiana compartilhada que liga concretamente a codificação e a geração. Código e dados estão disponíveis em https://rbetser.github.io/UNE/

English

Generative models and vision encoders have largely advanced on separate tracks, optimized for different goals and grounded in different mathematical principles. Yet, they share a fundamental property: latent space Gaussianity. Generative models map Gaussian noise to images, while encoders map images to semantic embeddings whose coordinates empirically behave as Gaussian. We hypothesize that both are views of a shared latent source, the Universal Normal Embedding (UNE): an approximately Gaussian latent space from which encoder embeddings and DDIM-inverted noise arise as noisy linear projections. To test our hypothesis, we introduce NoiseZoo, a dataset of per-image latents comprising DDIM-inverted diffusion noise and matching encoder representations (CLIP, DINO). On CelebA, linear probes in both spaces yield strong, aligned attribute predictions, indicating that generative noise encodes meaningful semantics along linear directions. These directions further enable faithful, controllable edits (e.g., smile, gender, age) without architectural changes, where simple orthogonalization mitigates spurious entanglements. Taken together, our results provide empirical support for the UNE hypothesis and reveal a shared Gaussian-like latent geometry that concretely links encoding and generation. Code and data are available https://rbetser.github.io/UNE/

O Mergulho Normal Universal

The Universal Normal Embedding

Resumo

Support