Универсальное нормальное вложение

Аннотация

Генеративные модели и визуальные энкодеры долгое время развивались по отдельности, будучи оптимизированы для разных целей и основаны на различных математических принципах. Тем не менее, они обладают фундаментальным общим свойством: гауссовостью латентного пространства. Генеративные модели отображают гауссов шум в изображения, в то время как энкодеры отображают изображения в семантические эмбеддинги, координаты которых, как показывает практика, ведут себя как гауссовы. Мы выдвигаем гипотезу, что оба подхода являются взглядами на общий латентный источник — Универсальное Нормальное Вложение (Universal Normal Embedding, UNE): приблизительно гауссово латентное пространство, из которого эмбеддинги энкодеров и инвертированный DDIM-шум возникают как зашумленные линейные проекции. Для проверки гипотезы мы представляем NoiseZoo — набор данных латентных представлений для каждого изображения, включающий инвертированный диффузионный шум DDIM и соответствующие представления энкодеров (CLIP, DINO). На CelebA линейные пробы в обоих пространствах дают сильные, согласованные предсказания атрибутов, что указывает на то, что генеративный шум кодирует содержательную семантику вдоль линейных направлений. Эти направления также позволяют выполнять точные контролируемые редактирования (например, улыбка, пол, возраст) без изменения архитектуры, причем простая ортогонализация позволяет снизить ложные переплетения. В совокупности наши результаты предоставляют эмпирическое подтверждение гипотезы UNE и раскрывают общую гауссоподобную латентную геометрию, которая конкретно связывает кодирование и генерацию. Код и данные доступны по адресу https://rbetser.github.io/UNE/

English

Generative models and vision encoders have largely advanced on separate tracks, optimized for different goals and grounded in different mathematical principles. Yet, they share a fundamental property: latent space Gaussianity. Generative models map Gaussian noise to images, while encoders map images to semantic embeddings whose coordinates empirically behave as Gaussian. We hypothesize that both are views of a shared latent source, the Universal Normal Embedding (UNE): an approximately Gaussian latent space from which encoder embeddings and DDIM-inverted noise arise as noisy linear projections. To test our hypothesis, we introduce NoiseZoo, a dataset of per-image latents comprising DDIM-inverted diffusion noise and matching encoder representations (CLIP, DINO). On CelebA, linear probes in both spaces yield strong, aligned attribute predictions, indicating that generative noise encodes meaningful semantics along linear directions. These directions further enable faithful, controllable edits (e.g., smile, gender, age) without architectural changes, where simple orthogonalization mitigates spurious entanglements. Taken together, our results provide empirical support for the UNE hypothesis and reveal a shared Gaussian-like latent geometry that concretely links encoding and generation. Code and data are available https://rbetser.github.io/UNE/

Универсальное нормальное вложение

The Universal Normal Embedding

Аннотация

Support