Улучшение генеративного моделирования изображений через совместный синтез изображений и признаков
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
April 22, 2025
Авторы: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Аннотация
Латентные диффузионные модели (LDMs) доминируют в области генерации высококачественных изображений, однако интеграция обучения представлений с генеративным моделированием остается сложной задачей. Мы представляем новый фреймворк для генеративного моделирования изображений, который бесшовно устраняет этот разрыв, используя диффузионную модель для совместного моделирования низкоуровневых латентных переменных изображений (из вариационного автоэнкодера) и высокоуровневых семантических признаков (из предобученного самоконтролируемого энкодера, такого как DINO). Наш подход, основанный на латентно-семантической диффузии, учится генерировать согласованные пары изображение-признак из чистого шума, значительно улучшая как качество генерации, так и эффективность обучения, при этом требуя лишь минимальных модификаций стандартных архитектур Diffusion Transformer. Устраняя необходимость в сложных целях дистилляции, наш унифицированный дизайн упрощает обучение и открывает мощную новую стратегию вывода: Representation Guidance, которая использует изученную семантику для управления и уточнения генерации изображений. Оцененный как в условных, так и в безусловных сценариях, наш метод демонстрирует существенные улучшения в качестве изображений и скорости сходимости обучения, задавая новое направление для генеративного моделирования с учетом представлений.
English
Latent diffusion models (LDMs) dominate high-quality image generation, yet
integrating representation learning with generative modeling remains a
challenge. We introduce a novel generative image modeling framework that
seamlessly bridges this gap by leveraging a diffusion model to jointly model
low-level image latents (from a variational autoencoder) and high-level
semantic features (from a pretrained self-supervised encoder like DINO). Our
latent-semantic diffusion approach learns to generate coherent image-feature
pairs from pure noise, significantly enhancing both generative quality and
training efficiency, all while requiring only minimal modifications to standard
Diffusion Transformer architectures. By eliminating the need for complex
distillation objectives, our unified design simplifies training and unlocks a
powerful new inference strategy: Representation Guidance, which leverages
learned semantics to steer and refine image generation. Evaluated in both
conditional and unconditional settings, our method delivers substantial
improvements in image quality and training convergence speed, establishing a
new direction for representation-aware generative modeling.Summary
AI-Generated Summary