ChatPaper.aiChatPaper

Steigerung Latenter Diffusionsmodelle durch Entkoppelte Repräsentationsausrichtung

Boosting Latent Diffusion Models via Disentangled Representation Alignment

January 9, 2026
papers.authors: John Page, Xuesong Niu, Kai Wu, Kun Gai
cs.AI

papers.abstract

Latente Diffusionsmodelle (LDMs) erzeugen hochwertige Bilder, indem sie in einem komprimierten latenten Raum operieren, der typischerweise durch Bild-Tokenizer wie Variational Autoencoder (VAEs) gewonnen wird. Um einen generierungsfreundlichen VAE zu entwickeln, haben neuere Studien untersucht, Vision Foundation Models (VFMs) als Repräsentationsausrichtungsziele für VAEs zu nutzen, ähnlich dem Ansatz, der üblicherweise für LDMs verwendet wird. Obwohl dies gewisse Leistungssteigerungen bringt, übersieht die Verwendung desselben Ausrichtungsziels für sowohl VAEs als auch LDMs deren grundlegend unterschiedliche Repräsentationsanforderungen. Wir vertreten die Ansicht, dass VAEs, während LDMs von latenten Räumen profitieren, die hochlevelige semantische Konzepte beibehalten, sich durch semantische Entflechtung auszeichnen sollten, um Attribut-Informationen auf strukturierte Weise kodieren zu können. Um dies zu adressieren, schlagen wir den Semantic Disentangled VAE (Send-VAE) vor, der explizit für entflochtenes Repräsentationslernen optimiert ist, indem sein latenter Raum mit der semantischen Hierarchie vortrainierter VFMs ausgerichtet wird. Unser Ansatz verwendet ein nichtlineares Mapper-Netzwerk, um VAE-latente Räume zu transformieren und sie mit VFMs abzugleichen, um die Lücke zwischen attributbasierter Entflechtung und hochleveliger Semantik zu überbrücken und so eine effektive Lenkung für das VAE-Lernen zu ermöglichen. Wir evaluieren die semantische Entflechtung durch Linear Probing bei Attributvorhersageaufgaben, was eine starke Korlation mit verbesserter Generierungsleistung zeigt. Abschließend trainieren wir mit Send-VAE flow-basierte Transformer (SiTs); Experimente zeigen, dass Send-VAE das Training deutlich beschleunigt und einen state-of-the-art FID von 1.21 bzw. 1.75 mit und ohne Classifier-Free Guidance auf ImageNet 256x256 erreicht.
English
Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.
PDF173January 31, 2026