Die universelle normale Einbettung

Zusammenfassung

Generative Modelle und Vision-Encoder haben sich weitgehend auf getrennten Wegen entwickelt, die für unterschiedliche Ziele optimiert und auf verschiedenen mathematischen Prinzipien basieren. Dennoch teilen sie eine grundlegende Eigenschaft: die Gaußförmigkeit des latenten Raums. Generative Modelle bilden Gaußsches Rauschen auf Bilder ab, während Encoder Bilder auf semantische Embeddings abbilden, deren Koordinaten sich empirisch als gaußförmig verhalten. Wir stellen die Hypothese auf, dass beide Sichtweisen auf eine gemeinsame latente Quelle zurückgehen, die Universal Normal Embedding (UNE): einen annähernd gaußförmigen latenten Raum, aus dem Encoder-Embeddings und DDIM-invertiertes Rauschen als verrauschte lineare Projektionen hervorgehen. Um unsere Hypothese zu testen, stellen wir NoiseZoo vor, einen Datensatz von latenten Repräsentationen pro Bild, der DDIM-invertiertes Diffusionsrauschen und entsprechende Encoder-Repräsentationen (CLIP, DINO) umfasst. Auf CelebA erzielen lineare Klassifikatoren in beiden Räumen starke, übereinstimmende Attributvorhersagen, was darauf hindeutet, dass generatives Rauschen bedeutungsvolle Semantik entlang linearer Richtungen kodiert. Diese Richtungen ermöglichen weiterhin zuverlässige, steuerbare Bearbeitungen (z.B. Lächeln, Geschlecht, Alter) ohne Architekturänderungen, wobei einfache Orthogonalisierung unerwünschte Verflechtungen reduziert. Zusammengenommen liefern unsere Ergebnisse empirische Unterstützung für die UNE-Hypothese und offenbaren eine gemeinsame, gaußähnliche latente Geometrie, die Encodierung und Generierung konkret verbindet. Code und Daten sind verfügbar unter https://rbetser.github.io/UNE/.

English

Generative models and vision encoders have largely advanced on separate tracks, optimized for different goals and grounded in different mathematical principles. Yet, they share a fundamental property: latent space Gaussianity. Generative models map Gaussian noise to images, while encoders map images to semantic embeddings whose coordinates empirically behave as Gaussian. We hypothesize that both are views of a shared latent source, the Universal Normal Embedding (UNE): an approximately Gaussian latent space from which encoder embeddings and DDIM-inverted noise arise as noisy linear projections. To test our hypothesis, we introduce NoiseZoo, a dataset of per-image latents comprising DDIM-inverted diffusion noise and matching encoder representations (CLIP, DINO). On CelebA, linear probes in both spaces yield strong, aligned attribute predictions, indicating that generative noise encodes meaningful semantics along linear directions. These directions further enable faithful, controllable edits (e.g., smile, gender, age) without architectural changes, where simple orthogonalization mitigates spurious entanglements. Taken together, our results provide empirical support for the UNE hypothesis and reveal a shared Gaussian-like latent geometry that concretely links encoding and generation. Code and data are available https://rbetser.github.io/UNE/

Die universelle normale Einbettung

The Universal Normal Embedding

Zusammenfassung

Support