ChatPaper.aiChatPaper

Amélioration des Modèles de Diffusion Latente par Alignement des Représentations Disentanglées

Boosting Latent Diffusion Models via Disentangled Representation Alignment

January 9, 2026
papers.authors: John Page, Xuesong Niu, Kai Wu, Kun Gai
cs.AI

papers.abstract

Les modèles de diffusion latente (LDM) génèrent des images de haute qualité en opérant dans un espace latent compressé, généralement obtenu via des tokeniseurs d'image tels que les autoencodeurs variationnels (VAE). Dans la quête d'un VAE favorable à la génération, des études récentes ont exploré l'utilisation de modèles de fondation en vision (VFM) comme cibles d'alignement des représentations pour les VAE, reprenant l'approche couramment adoptée pour les LDM. Bien que cela procure certains gains de performance, utiliser la même cible d'alignement pour les VAE et les LDM néglige leurs besoins représentationnels fondamentalement différents. Nous soutenons que si les LDM bénéficient de latents conservant des concepts sémantiques de haut niveau, les VAE devraient exceller dans le désentremêlement sémantique, permettant l'encodage d'informations au niveau des attributs de manière structurée. Pour résoudre ce problème, nous proposons le VAE à sémantique désentremêlée (Send-VAE), explicitement optimisé pour l'apprentissage de représentations désentremêlées en alignant son espace latent avec la hiérarchie sémantique de VFM pré-entraînés. Notre approche utilise un réseau de projection non linéaire pour transformer les latents du VAE, en les alignant avec les VFM afin de combler l'écart entre le désentremêlement au niveau des attributs et la sémantique de haut niveau, facilitant un guidage efficace pour l'apprentissage du VAE. Nous évaluons le désentremêlement sémantique via du sondage linéaire sur des tâches de prédiction d'attributs, montrant une forte corrélation avec l'amélioration des performances de génération. Enfin, en utilisant Send-VAE, nous entraînons des transformers à base de flux (SiT) ; les expériences montrent que Send-VAE accélère significativement l'entraînement et atteint un FID de pointe de 1,21 et 1,75 avec et sans guidage sans classifieur sur ImageNet 256x256.
English
Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.
PDF173January 31, 2026