Migliorare la Modellazione Generativa di Immagini attraverso la Sintesi Congiunta di Immagini e Caratteristiche

Abstract

I modelli di diffusione latente (LDMs) dominano la generazione di immagini di alta qualità, tuttavia l'integrazione dell'apprendimento di rappresentazioni con la modellazione generativa rimane una sfida. Introduciamo un nuovo framework di modellazione generativa di immagini che colma in modo fluido questo divario sfruttando un modello di diffusione per modellare congiuntamente latenti di basso livello (da un autoencoder variazionale) e caratteristiche semantiche di alto livello (da un encoder pre-addestrato auto-supervisionato come DINO). Il nostro approccio di diffusione latente-semantica impara a generare coppie immagine-caratteristica coerenti partendo da rumore puro, migliorando significativamente sia la qualità generativa che l'efficienza dell'addestramento, tutto ciò richiedendo solo modifiche minime alle architetture standard dei Transformer di diffusione. Eliminando la necessità di complessi obiettivi di distillazione, il nostro design unificato semplifica l'addestramento e sblocca una nuova potente strategia di inferenza: la Guida di Rappresentazione, che sfrutta le semantiche apprese per orientare e affinare la generazione di immagini. Valutato sia in contesti condizionali che non condizionali, il nostro metodo offre miglioramenti sostanziali nella qualità delle immagini e nella velocità di convergenza dell'addestramento, stabilendo una nuova direzione per la modellazione generativa consapevole delle rappresentazioni.

English

Latent diffusion models (LDMs) dominate high-quality image generation, yet integrating representation learning with generative modeling remains a challenge. We introduce a novel generative image modeling framework that seamlessly bridges this gap by leveraging a diffusion model to jointly model low-level image latents (from a variational autoencoder) and high-level semantic features (from a pretrained self-supervised encoder like DINO). Our latent-semantic diffusion approach learns to generate coherent image-feature pairs from pure noise, significantly enhancing both generative quality and training efficiency, all while requiring only minimal modifications to standard Diffusion Transformer architectures. By eliminating the need for complex distillation objectives, our unified design simplifies training and unlocks a powerful new inference strategy: Representation Guidance, which leverages learned semantics to steer and refine image generation. Evaluated in both conditional and unconditional settings, our method delivers substantial improvements in image quality and training convergence speed, establishing a new direction for representation-aware generative modeling.

Migliorare la Modellazione Generativa di Immagini attraverso la Sintesi Congiunta di Immagini e Caratteristiche

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

Abstract

Support