Miglioramento dei Modelli di Diffusione Latente tramite Allineamento di Rappresentazioni Disentanglate

Abstract

I modelli di diffusione latente (LDM) generano immagini di alta qualità operando in uno spazio latente compresso, tipicamente ottenuto tramite tokenizzatori di immagine come gli autoencoder variazionali (VAE). Nel perseguimento di un VAE adatto alla generazione, studi recenti hanno esplorato l'utilizzo di modelli fondazione per la visione (VFM) come target di allineamento delle rappresentazioni per i VAE, riflettendo l'approccio comunemente adottato per gli LDM. Sebbene ciò comporti alcuni miglioramenti prestazionali, l'utilizzo dello stesso target di allineamento sia per i VAE che per gli LDM trascura le loro esigenze rappresentative fondamentalmente diverse. Sosteniamo che, mentre gli LDM beneficiano di latenti che conservano concetti semantici di alto livello, i VAE dovrebbero eccellere nella separazione semantica (disentanglement), permettendo la codifica delle informazioni a livello di attributo in modo strutturato. Per affrontare ciò, proponiamo il VAE a separazione semantica (Send-VAE), esplicitamente ottimizzato per l'apprendimento di rappresentazioni disentangled attraverso l'allineamento del suo spazio latente con la gerarchia semantica di VFM pre-addestrati. Il nostro approccio impiega una rete mapper non lineare per trasformare i latenti del VAE, allineandoli con i VFM per colmare il divario tra il disentanglement a livello di attributo e la semantica di alto livello, facilitando una guida efficace per l'apprendimento del VAE. Valutiamo il disentanglement semantico tramite linear probing su task di previsione di attributi, mostrando una forte correlazione con il miglioramento delle prestazioni di generazione. Infine, utilizzando Send-VAE, addestriamo transformer basati su flussi (SiT); gli esperimenti mostrano che Send-VAE accelera significativamente l'addestramento e raggiunge un FID state-of-the-art di 1.21 e 1.75 rispettivamente con e senza classifier-free guidance su ImageNet 256x256.

English

Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.

Miglioramento dei Modelli di Diffusione Latente tramite Allineamento di Rappresentazioni Disentanglate

Boosting Latent Diffusion Models via Disentangled Representation Alignment

Abstract

Support