Verbetering van Latente Diffusiemodellen via Ontvlechtende Representatie-uitlijning
Boosting Latent Diffusion Models via Disentangled Representation Alignment
January 9, 2026
Auteurs: John Page, Xuesong Niu, Kai Wu, Kun Gai
cs.AI
Samenvatting
Latente Diffusiemodellen (LDM's) genereren hoogwaardige afbeeldingen door te werken in een gecomprimeerde latente ruimte, die doorgaans wordt verkregen via beeldtokenizers zoals Variational Autoencoders (VAE's). In de zoektocht naar een VAE die geschikt is voor generatie, hebben recente onderzoeken het gebruik van Vision Foundation Models (VFM's) als representatie-uitlijningsdoelen voor VAE's verkend, naar analogie van de aanpak die gemeengoed is voor LDM's. Hoewel dit bepaalde prestatieverbeteringen oplevert, houdt het gebruik van hetzelfde uitlijningsdoel voor zowel VAE's als LDM's geen rekening met hun fundamenteel verschillende representatiebehoeften. Wij bepleiten dat LDM's weliswaar baat hebben bij latente ruimtes die hoogwaardige semantische concepten behouden, maar dat VAE's moeten uitblinken in semantische ontvlechting, zodat informatie op attribuutniveau gestructureerd kan worden gecodeerd. Om dit aan te pakken, stellen we de Semantic Disentangled VAE (Send-VAE) voor, die expliciet is geoptimaliseerd voor ontvlochten representatieleren door zijn latente ruimte uit te lijnen met de semantische hiërarchie van voorgetrainde VFM's. Onze aanpak gebruikt een niet-lineair mapper-netwerk om VAE-latente representaties te transformeren en ze uit te lijnen met VFM's, om zo de kloof te overbruggen tussen ontvlechting op attribuutniveau en hoogwaardige semantiek, wat effectieve begeleiding voor het VAE-leren mogelijk maakt. We evalueren semantische ontvlechting via lineaire probing bij attribuutvoorspellingstaken, waarbij een sterke correlatie met verbeterde generatieprestaties wordt aangetoond. Ten slotte trainen we met Send-VAE stroomgebaseerde transformers (SiT's); experimenten tonen aan dat Send-VAE de training aanzienlijk versnelt en een state-of-the-art FID bereikt van respectievelijk 1.21 en 1.75 mét en zónder classifier-free guidance op ImageNet 256x256.
English
Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.