Potenciando el Modelado Generativo de Imágenes mediante la Síntesis Conjunta de Imágenes y Características
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
April 22, 2025
Autores: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Resumen
Los modelos de difusión latente (LDMs, por sus siglas en inglés) dominan la generación de imágenes de alta calidad, pero integrar el aprendizaje de representaciones con el modelado generativo sigue siendo un desafío. Presentamos un novedoso marco de modelado generativo de imágenes que cierra esta brecha de manera fluida al aprovechar un modelo de difusión para modelar conjuntamente latentes de imágenes de bajo nivel (provenientes de un autoencoder variacional) y características semánticas de alto nivel (de un codificador autosupervisado preentrenado como DINO). Nuestro enfoque de difusión latente-semántica aprende a generar pares coherentes de imágenes y características a partir de ruido puro, mejorando significativamente tanto la calidad generativa como la eficiencia del entrenamiento, todo ello requiriendo solo modificaciones mínimas en las arquitecturas estándar de Transformadores de Difusión. Al eliminar la necesidad de objetivos de destilación complejos, nuestro diseño unificado simplifica el entrenamiento y desbloquea una nueva y poderosa estrategia de inferencia: la Guía de Representación, que aprovecha las semánticas aprendidas para dirigir y refinar la generación de imágenes. Evaluado tanto en configuraciones condicionales como incondicionales, nuestro método ofrece mejoras sustanciales en la calidad de las imágenes y la velocidad de convergencia del entrenamiento, estableciendo una nueva dirección para el modelado generativo consciente de las representaciones.
English
Latent diffusion models (LDMs) dominate high-quality image generation, yet
integrating representation learning with generative modeling remains a
challenge. We introduce a novel generative image modeling framework that
seamlessly bridges this gap by leveraging a diffusion model to jointly model
low-level image latents (from a variational autoencoder) and high-level
semantic features (from a pretrained self-supervised encoder like DINO). Our
latent-semantic diffusion approach learns to generate coherent image-feature
pairs from pure noise, significantly enhancing both generative quality and
training efficiency, all while requiring only minimal modifications to standard
Diffusion Transformer architectures. By eliminating the need for complex
distillation objectives, our unified design simplifies training and unlocks a
powerful new inference strategy: Representation Guidance, which leverages
learned semantics to steer and refine image generation. Evaluated in both
conditional and unconditional settings, our method delivers substantial
improvements in image quality and training convergence speed, establishing a
new direction for representation-aware generative modeling.Summary
AI-Generated Summary