Migliorare la Modellazione Generativa di Immagini attraverso la Sintesi Congiunta di Immagini e Caratteristiche
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
April 22, 2025
Autori: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Abstract
I modelli di diffusione latente (LDMs) dominano la generazione di immagini di alta qualità, tuttavia l'integrazione dell'apprendimento di rappresentazioni con la modellazione generativa rimane una sfida. Introduciamo un nuovo framework di modellazione generativa di immagini che colma in modo fluido questo divario sfruttando un modello di diffusione per modellare congiuntamente latenti di basso livello (da un autoencoder variazionale) e caratteristiche semantiche di alto livello (da un encoder pre-addestrato auto-supervisionato come DINO). Il nostro approccio di diffusione latente-semantica impara a generare coppie immagine-caratteristica coerenti partendo da rumore puro, migliorando significativamente sia la qualità generativa che l'efficienza dell'addestramento, tutto ciò richiedendo solo modifiche minime alle architetture standard dei Transformer di diffusione. Eliminando la necessità di complessi obiettivi di distillazione, il nostro design unificato semplifica l'addestramento e sblocca una nuova potente strategia di inferenza: la Guida di Rappresentazione, che sfrutta le semantiche apprese per orientare e affinare la generazione di immagini. Valutato sia in contesti condizionali che non condizionali, il nostro metodo offre miglioramenti sostanziali nella qualità delle immagini e nella velocità di convergenza dell'addestramento, stabilendo una nuova direzione per la modellazione generativa consapevole delle rappresentazioni.
English
Latent diffusion models (LDMs) dominate high-quality image generation, yet
integrating representation learning with generative modeling remains a
challenge. We introduce a novel generative image modeling framework that
seamlessly bridges this gap by leveraging a diffusion model to jointly model
low-level image latents (from a variational autoencoder) and high-level
semantic features (from a pretrained self-supervised encoder like DINO). Our
latent-semantic diffusion approach learns to generate coherent image-feature
pairs from pure noise, significantly enhancing both generative quality and
training efficiency, all while requiring only minimal modifications to standard
Diffusion Transformer architectures. By eliminating the need for complex
distillation objectives, our unified design simplifies training and unlocks a
powerful new inference strategy: Representation Guidance, which leverages
learned semantics to steer and refine image generation. Evaluated in both
conditional and unconditional settings, our method delivers substantial
improvements in image quality and training convergence speed, establishing a
new direction for representation-aware generative modeling.Summary
AI-Generated Summary