Was zählt für die diffusionsfreundliche latente Mannigfaltigkeit? Vorabgestimmte Autoencoder für latente Diffusion

Zusammenfassung

Tokenisierer sind eine entscheidende Komponente latenter Diffusionsmodelle, da sie den latenten Raum definieren, in dem Diffusionsmodelle operieren. Allerdings sind bestehende Tokenisierer hauptsächlich darauf ausgelegt, die Rekonstruktionstreue zu verbessern oder vortrainierte Repräsentationen zu übernehmen, sodass unklar bleibt, welche Art von latentem Raum wirklich förderlich für die generative Modellierung ist. In dieser Arbeit untersuchen wir diese Frage aus der Perspektive der Organisation der latenten Mannigfaltigkeit. Durch die Konstruktion kontrollierter Tokenisierervarianten identifizieren wir drei Schlüsseleigenschaften einer diffusionsfreundlichen latenten Mannigfaltigkeit: kohärente räumliche Struktur, lokale Mannigfaltigkeitskontinuität und globale Mannigfaltigkeitssemantik. Wir stellen fest, dass diese Eigenschaften besser mit der nachgelagerten Generierungsqualität übereinstimmen als mit der Rekonstruktionstreue. Motiviert durch dieses Ergebnis schlagen wir den Prior-Aligned AutoEncoder (PAE) vor, der die latente Mannigfaltigkeit explizit formt, anstatt eine diffusionsfreundliche Mannigfaltigkeit indirekt aus Rekonstruktion oder Vererbung entstehen zu lassen. Konkret nutzt PAE verfeinerte Prioren, die aus VFMs abgeleitet werden, sowie perturbationsbasierte Regularisierung, um räumliche Struktur, lokale Kontinuität und globale Semantik in explizite Trainingsziele zu verwandeln. Auf ImageNet 256x256 verbessert PAE sowohl die Trainingseffizienz als auch die Generierungsqualität im Vergleich zu bestehenden Tokenisierern, erreicht eine mit RAE vergleichbare Leistung bei bis zu 13-fach schnellerer Konvergenz unter denselben Trainingsbedingungen und erzielt einen neuen Spitzenwert beim gFID von 1,03. Diese Ergebnisse unterstreichen die Bedeutung der Organisation der latenten Mannigfaltigkeit für latente Diffusionsmodelle.

English

Tokenizers are a crucial component of latent diffusion models, as they define the latent space in which diffusion models operate. However, existing tokenizers are primarily designed to improve reconstruction fidelity or inherit pretrained representations, leaving unclear what kind of latent space is truly friendly for generative modeling. In this paper, we study this question from the perspective of latent manifold organization. By constructing controlled tokenizer variants, we identify three key properties of a diffusion-friendly latent manifold: coherent spatial structure, local manifold continuity, and global manifold semantics. We find that these properties are more consistent with downstream generation quality than reconstruction fidelity. Motivated by this finding, we propose the Prior-Aligned AutoEncoder (PAE), which explicitly shapes the latent manifold instead of leaving diffusion-friendly manifold to emerge indirectly from reconstruction or inheritance. Specifically, PAE leverages refined priors derived from VFMs and perturbation-based regularization to turn spatial structure, local continuity, and global semantics into explicit training objectives. On ImageNet 256x256, PAE improves both training efficiency and generation quality over existing tokenizers, reaching performance comparable to RAE with up to 13x faster convergence under the same training setup and achieving a new state-of-the-art gFID of 1.03. These results highlight the importance of organizing the latent manifold for latent diffusion models.

Was zählt für die diffusionsfreundliche latente Mannigfaltigkeit? Vorabgestimmte Autoencoder für latente Diffusion

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

Zusammenfassung

Support